このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
イスラエルのテルアビブ大学の研究チームが開発した「Stitch it in Time: GAN-Based Facial Editing of Real Videos」は、実写映像内に映る人物の顔を編集できる深層学習を使った技術だ。元動画の動きのまま、その顔のアイデンディティを維持しつつ年齢を変えて若くしたり老化させたり、性別を変える、常に笑顔や怒っている顔にするなどといった編集ができる。
GAN(Generative Adversarial Network)は、顔の静止画像の編集に広く使用されており、高いパフォーマンスを達成している。しかし、動画で再現することは非常に困難を極める。動画の場合は、時間的な一貫性の維持という新たな課題があるからだ。ビデオに加えた操作は、全てのビデオフレームに一貫して反映させなければならない。
先行研究では、動画合成用のGANを学習することで、この課題に取り組むことを提案しているが、高品質のビデオデータセットがないことと、次元が増えることによる複雑さのために、videoGANはこれまでのところ、動かした際のアーティファクトが目立ち、静止画像の対応するものと同等の品質を得ることができていない。
この手法では、時間的な一貫性を作り出す方法ではなく、時間的な不整合が発生する可能性のあるポイントを特定し修正するアプローチでこれら課題に挑戦する。局所的に整合性のあるポイントを発見するためのエンコーダーと、大域的な整合性を促進するためのジェネレータの微調整という2つのアプローチを統合する。
最後に、空間的に一貫性のあるトランジションを提供するために、ジェネレータをさらに微調整する「stitching-tuning」という新しい操作を考案し、これにより、編集効果を維持しつつリアルなブレンドを実現する。
パイプラインは、6つのステップで構成。
このように合成した出力映像は、時間的な一貫性を強制しようとするコンポーネントを使用していないにもかかわらず、人物のアイデンディティを維持しながらアーティファクトを抑えた滑らかな映像に仕上げる。これまでの類似手法と比較しても、この手法の方が良好な結果を示した。
実写だけでなく、3Dキャラクターの顔などアニメーションメディアにも適応できる。
Source and Image Credits: Tzaban, Rotem, Ron Mokady, Rinon Gal, Amit H. Bermano and Daniel Cohen-Or. “Stitch it in Time: GAN-Based Facial Editing of Real Videos.” (2022).
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR