Innovative Tech(AI+)
日本のアニメなどから収集したデータセット「Sakuga-42M」 国際研究チームが公開 「学術研究でのみ使用可能」【更新済み】
Innovative Tech(AI+):
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。
X: @shiropen2
【更新履歴:2024年5月24日 午後1時50分更新 同時刻時点で論文は取り下げられ、GitHubのリポジトリ非公開となったことを確認しました。
カナダのアルバータ大学や中国の四川音楽学院に所属する研究者らが発表した論文「Sakuga-42M Dataset: Scaling Up Cartoon Research」は、AIモデルのトレーニング用に作成したアニメ動画データセットを提案した研究報告である。
Sakuga-42Mは、GitHubにおいてリポジトリが公開されており、学術研究の目的でのみ使用可能。また、データセット内の画像やビデオの著作権は、それぞれのクリエイターに帰属する。
近年のCLIP、Stable Video Diffusion(SVD)、Soraなどの大規模モデルは実写の理解や生成で優れた性能を示しているが、手描きアニメーションに対しては同様の効果が得られていない。その理由として、大規模なアニメーションデータセットがこれまで存在しなかったことが挙げられる。
そこで、この研究ではSakuga-42Mという大規模アニメーションデータセットを提案。Sakuga-42Mは、さまざまなスタイルや年代などをカバーする4200万枚のキーフレームで構成しており、ビデオとテキストの記述ペア、アニメタグ、コンテンツ分類などのアノテーションを付与している。このデータセットは自動化されたパイプラインを使用して作成され、データ収集、ビデオ分割、キーフレーム検出、キャプション生成などの複数のステップを経ている。
Sakuga-42Mの構成は多岐にわたる。日本やアメリカ、中国、EUからの主に手描き2Dアニメーションで構成され、1950年代から2020年代までの幅広いタイムラインをカバーしている。
4200万のキーフレームを含む100万のアニメーションクリップから成り、大部分のビデオは480Pの解像度で構成。また、99.5%以上のクリップが一般的に安全であると評価されており、時間、場所、メディア、構図、キャラクターなどでアニメーションビデオを分類している。
実験では、Sakuga-42Mを用いてVideo CLIP、Video Mamba、SVDなどの最新の基盤モデルをファインチューニング(微調整)し、アニメーションの理解と生成のタスクで評価を行った。実験の結果、アニメーションの理解と生成の両タスクで著しい性能向上が見られた。また、実写ビデオとアニメーションの間のドメインギャップについても検証し、手描きアニメーションが実写ビデオとは異なるデータ分布を示すことを明らかにした。
さらに、Sakuga-42Mが幅広いアニメーション研究を支援できることを議論している。アニメーション生成、アニメーション理解、ビデオ検索システム、自動色付け、自動中割り、自動編集など、関連分野の将来の探求にも活用できる可能性がある。
Source and Image Credits: Pan, Zhenglin, Yu Zhu, and Yuxuan Mu. “Sakuga-42M Dataset: Scaling Up Cartoon Research.” arXiv preprint arXiv:2405.07425(2024).
Copyright © ITmedia, Inc. All Rights Reserved.
Innovative Tech(AI+)
2019年の開始以来、多様な最新論文を取り上げている連載「Innovative Tech」。ここではその“AI編”として、人工知能に特化し、世界中の興味深い論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」(シームレス)を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Google、“動画版Nano Banana”こと「Gemini Omni」公開 会話で映像を生成・編集
-
2
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
-
3
日立、Anthropicと提携 グループ29万人に「Claude」などAI導入 社会インフラ分野にも展開へ
-
4
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
5
GoogleのAIサブスク、最上位プランを値下げ 月額1万4500円の新プランも
-
6
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
7
「ポンコツ」と呼ばれたM365 Copilotの逆転劇、GPT-5が転換点 活用の秘訣は“脱・プロンプト職人”
-
8
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
9
【やさしいデータ分析】ベイズ統計入門 ~ 古典的な統計との違いと使い分け
-
10
みずほFGが実現 2週間かかるAIエージェント開発を最短数日にする仕組みとは?
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR