ITmedia NEWS > AI+ >
ニュース
» 2020年02月13日 07時30分 公開

Innovative Tech:人の動画を別人の動きに 深層学習でリアルに操作

深度センサーを持っていない通常のカメラで撮影した動画を、CNNを使って別の動きに変えることが可能に。

[山下裕毅,ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 独Max Planck Institute for Informatics、香港大学、スタンフォード大学による研究チームが2020年1月に発表した「Neural Human Video Rendering」は、 Convolutional Neural Network(CNN)を用い、動画内の衣服を着た人物の全身運動を制御する合成技術だ。

photo Neural Human Video Rendering用いた動画間転送の様子。上段がターゲット動画(操られる側)、左がドライバー動画(操る側)、右が出力結果

 研究チームは3種類のユースケースを紹介している。

photo Neural Human Video Renderingを用いたユースケース
  • (a) ドライバー動画(操る側)の動きをターゲット動画(操られる側)へ転送するアプローチ。ターゲット動画内の人物を、外見を保持しながらドライバー動画内の人物の動きと同じように動かせる。
  • (b) 人型スケルトンを動かし制御するアプローチ。モデルをインタラクティブに動かし、ターゲット動画内の人物を同じように動かせる。
  • (c)単一カメラの固定ビューからBullet-time効果を生成するアプローチ。さまざまな角度から見た特定のポーズを生成できる。

 本技術は、1台の単眼カメラで撮影した動画から学習して、スケルトンを入力とした人物のリアルな映像を生成するデータ駆動型のアプローチだ。

 事前トレーニングでは、静的な人型3Dモデルとテクスチャ、動画から人物の動きを訓練する。出力はモーションデータとフレーム毎の部分的な動的テクスチャ。合成ステップでは、テクスチャマップを計算するためのネットワーク(TexNet)と、前景と背景を自然にブレンドし、シルエットで見られるトラッキング/スキニングエラーを修正した最終出力を生成するネットワーク(RefNet)の2段階で構成される。

photo Neural Human Video Renderingのパイプライン

 このような合成技術では、転送後の動画で体の一部や衣服のシワが欠落するといった課題があった。本技術はこの課題を軽減している。

Copyright © ITmedia, Inc. All Rights Reserved.