既存手法では、入力する2枚の画像間のOptical Flowを算出するだけだったが、これに首、肩、肘など関節点の座標を線でつなげたデータと、髪形、目、顔など部位ごとにフィルタリングした「マスクデータ」などを加えた。キャラクター全身の複雑な動きに対応できるよう、コンピュータに与える情報量を増やしたのだ。
こうした「構造情報」を利用したマルチタスクの学習モデルにし、生成した中間フレームをAIの識別器(discriminator)で「正しく描けているかどうか」評価させ、学習を繰り返した。
また、2つの識別器を使うことで生成する中間フレームの品質を向上できたという。李さんは「静止画の細部と、画像を時系列で見たときの両方を評価することで、より自然で連続的な動きになっているかと画像の品質を確認した」と話す。
同社が行った実験では、ゲームサイト「Mobage」のアバターを使用。動画から連続する5枚の画像を抽出し、最初と最後の画像から中間の画像3枚を生成できるか検証した。7fpsや30fpsなどフレームレートの間隔を変えながら実験したが、構造変化が大きい低フレームレートの動画でも「常に安定してフレーム補完ができた」(李さん)としている。
同社はアニメ「ずんだホライずん」の中割りを生成するテストも行っており、イベント内ではキャラクターの髪がふわふわと動いたり、口が滑らかに動いたりする動画が公開された。
DeNAは今後もアニメ生成技術の研究を続けていく。AIの活用で、動画マンの労働環境はどのように変わっていくのだろうか。
李さんと「構造的生成学習」の研究をしているAIエンジニアの濱田晃一さんは「アニメ生成技術の挑戦はこれからも続ける。アニメ制作の新たな未来へ挑戦したい」と締めくくった。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR