日本のアニメなどから収集したデータセット「Sakuga-42M」　国際研究チームが公開　「学術研究でのみ使用可能」【更新済み】：Innovative Tech（AI+）

» 2024年05月24日 12時00分公開

[山下裕毅，ITmedia]

Innovative Tech（AI+）：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X：＠shiropen2

【更新履歴：2024年5月24日午後1時50分更新　同時刻時点で論文は取り下げられ、GitHubのリポジトリ非公開となったことを確認しました。

　カナダのアルバータ大学や中国の四川音楽学院に所属する研究者らが発表した論文「Sakuga-42M Dataset: Scaling Up Cartoon Research」は、AIモデルのトレーニング用に作成したアニメ動画データセットを提案した研究報告である。

　Sakuga-42Mは、GitHubにおいてリポジトリが公開されており、学術研究の目的でのみ使用可能。また、データセット内の画像やビデオの著作権は、それぞれのクリエイターに帰属する。

アニメ動画に特化したAI学習用の大規模データセット「Sakuga-42M」

　近年のCLIP、Stable Video Diffusion（SVD）、Soraなどの大規模モデルは実写の理解や生成で優れた性能を示しているが、手描きアニメーションに対しては同様の効果が得られていない。その理由として、大規模なアニメーションデータセットがこれまで存在しなかったことが挙げられる。

　そこで、この研究ではSakuga-42Mという大規模アニメーションデータセットを提案。Sakuga-42Mは、さまざまなスタイルや年代などをカバーする4200万枚のキーフレームで構成しており、ビデオとテキストの記述ペア、アニメタグ、コンテンツ分類などのアノテーションを付与している。このデータセットは自動化されたパイプラインを使用して作成され、データ収集、ビデオ分割、キーフレーム検出、キャプション生成などの複数のステップを経ている。

Sakuga-42Mの作成パイプライン

Sakuga-42Mデータセットの構成

　Sakuga-42Mの構成は多岐にわたる。日本やアメリカ、中国、EUからの主に手描き2Dアニメーションで構成され、1950年代から2020年代までの幅広いタイムラインをカバーしている。

　4200万のキーフレームを含む100万のアニメーションクリップから成り、大部分のビデオは480Pの解像度で構成。また、99.5％以上のクリップが一般的に安全であると評価されており、時間、場所、メディア、構図、キャラクターなどでアニメーションビデオを分類している。

アニメーションとその説明文のペアセット例（1/2）

アニメーションとその説明文のペアセット例（2/2）

さまざまなアニメスタイルに分類

　実験では、Sakuga-42Mを用いてVideo CLIP、Video Mamba、SVDなどの最新の基盤モデルをファインチューニング（微調整）し、アニメーションの理解と生成のタスクで評価を行った。実験の結果、アニメーションの理解と生成の両タスクで著しい性能向上が見られた。また、実写ビデオとアニメーションの間のドメインギャップについても検証し、手描きアニメーションが実写ビデオとは異なるデータ分布を示すことを明らかにした。

生成モデルの微調整

テキストからアニメ動画を検索した際のテスト例

　さらに、Sakuga-42Mが幅広いアニメーション研究を支援できることを議論している。アニメーション生成、アニメーション理解、ビデオ検索システム、自動色付け、自動中割り、自動編集など、関連分野の将来の探求にも活用できる可能性がある。

Source and Image Credits: Pan, Zhenglin, Yu Zhu, and Yuxuan Mu. “Sakuga-42M Dataset: Scaling Up Cartoon Research.” arXiv preprint arXiv:2405.07425（2024）.

米OpenAI「公表しないで……」　ブラックボックスであるLLMの中身を“盗む”攻撃　米Googleらが発表
米Google DeepMindなどに所属する研究者らは、米OpenAIのGPT-4や米GoogleのPaLM-2などのクローズドな大規模言語モデルから、モデルの一部を盗み出す攻撃を提案した研究報告を発表した。
米Google、動画生成AI「Veo」発表　テキストから60秒超え動画を作成　サンプルも多数公開
米Googleは、動画生成AI「Veo」を発表した。
文化庁「AIと著作権の考え方」の“パブコメ反映版”はどんな内容？　弁護士が注目ポイント解説
文化庁が公開した「AIと著作権に関する考え方について（素案）」に対するパブリックコメント。計2万4938件の意見が集まり、この結果を反映した「考え方」の最新版（2024年2月29日版）はどのような内容になったのか。弁護士が解説する。
画像の“権利”をしっかり守る？　うわさの「ピュアモデルAI」の仕組みは　開発会社に聞いてみた
4月上旬、“漫画家の著作権を守るAI”と打ち出された「ピュアモデルAI」という生成AI技術がネットで話題になった。LoRAなどとは違う方法で、漫画家の画風を再現できる画像生成AIというが、それは一体どのような技術なのか。開発会社に聞いた。
「この絵、生成AI使ってますよね？」──“生成AIキャンセルカルチャー”は現代の魔女狩りなのか　企業が採るべき対策を考える
人気アニメシリーズ「プリキュア」の公式イラストを巡り、一部のユーザーから「生成AIを使って作成したのではないか」との声が上がる騒動が起きた。生成AIの利用自体に向けられる激しい嫌悪感「生成AIキャンセルカルチャー」について考察する。