このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
中国のAlibaba Groupなどに所属する研究者らが発表した論文「Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation」は、画像内のキャラクターや人物をアニメーション化する手法を提案した研究報告である。
「Animate Anyone」という新モデルは、1枚の画像とポーズシーケンス(骨格動画)を入力にして、ポーズシーケンスの動きに応じて画像内のキャラクターを滑らかに動かすモーションアニメーションを生成する。動いた際のなびく服や髪の毛も再現される。この手法は従来の手法に比べ、外観の一貫性を維持し、フレーム間のチラつきを軽減している。
モデルは、Stable Diffusion(SD)のネットワーク設計と事前訓練された重みを継承し、Denoising UNetを複数フレームの入力に対応できるように変更している。
この方法には3つの重要なコンポーネントが組み込まれている。参照画像からキャラクターの外観的特徴をエンコードする「ReferenceNet」。骨格動画からキャラクターの動きを制御するためのモーションデータをエンコードする「Pose Guider」。キャラクターの動きの連続性を確保するための時間的関係を補う「Temporal layer」。
ReferenceNetで抽出した特徴は、Spatial-Attentionを用いてDenoising UNetに統合される。これにより、Denoising UNetはReferenceNetと同じ特徴空間にある関連する特徴を選択的に学習できる。また、CLIP画像エンコーダーを使用したCross-Attentionにより、参照画像の意味的特徴も統合。Pose Guiderで処理したモーションデータは、Denoising UNetへの入力前に基礎となるノイズ情報に追加される。
Temporal Layerは、Denoising UNet内のSpatial-AttentionとCross-Attentionの後に組み込まれ、ビデオの各フレームがどのようにつながるかを理解するのに使われる。これにより、フレーム間の時間的一貫性を保った滑らかな動きを生成できる。
このモデルは、1枚の画像からその画像内のキャラクターをさまざまな動きに合わせてアニメーション化できる。仕上がりは高品質であり、リアルなキャラクターの細部を忠実に再現し、大きな動きのシーンでも参照画像との一貫性を維持する。また、フレーム間で時間的な連続性を実現している。
このモデルは、キャラクターの骨格の動きだけでなく、動いた際の服や髪の動きも高品質に生成する。UBCファッションビデオデータセットとTikTokデータセットという2つのビデオ合成ベンチマークでの評価結果は、この手法が最先端の成果を達成していることを示している。
Source and Image Credits: Hu, Li, et al. “Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation.” arXiv preprint arXiv:2311.17117(2023).
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR