スピーチに応じた“ろくろ回しポーズ”を自動生成、映像に反映　中国などの研究チームが技術開発：Innovative Tech

中国科学技術大学とJD AI Researchの研究チームは、発話に応じた上半身の動作を自動で生成するモデルを開発した。単調な動きだけを繰り返すのではなく、韻律（抑揚、音調、強勢、音長など）を考慮した自然な動作を生成する。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　中国科学技術大学とJD AI Researchの研究チームが開発した「Freeform Body Motion Generation from Speech」は、発話に応じた上半身の動作を自動で生成するモデルだ。単調な動きだけを繰り返すのではなく、韻律（抑揚、音調、強勢、音長など）を考慮した自然な動作を生成する。

音声から2Dポーズを生成し映像に適応した出力結果

　プロの話し手は、発話と同時にボディーモーションを行い情報を効果的に伝える。発話に合わせた口唇運動の生成は広く研究されているが、発話から身体の動きを生成する研究はまだ未発展のままだ。口唇運動は発話と連動させるのが容易なのに対し、発話からボディーモーションへの変換は非常に不確定要素が多い面を持つ。

　実際、発話中の身体運動は同一人物が2回続けて同じ発話をしたとしても、その発話者が同じ体動を示す保証はない。長時間のスピーチでは、ポーズの雰囲気も変わってくるだろう。同じスピーチ音声でもモーションの形態が固定されるとは限らず、異なるスピーチでも同じモーションシーケンスと相性が良い場合もある。

　あらかじめ定義されたジェスチャーセットを適応する方法もあるが、特定の話者／スタイルの動作をある程度模倣できても、動作の多様性や忠実性の点で限界があり、特に長時間のスピーチではその傾向が顕著である。

　研究では、単調な動作の繰り返しではなく、発話中の韻律を加味した動作を生成する。話し手が特定のトピックを中心に長いスピーチを話すトークビデオにおける動作に焦点を当てる。

　音声合成によるボディーモーション生成は、入力音声に対応する動作シーケンスを生成することである。そのためには、音声から身体運動への対応付けが必要である。研究チームは身体運動をPose modeとPhythmic motionの2つのモジュールに分解し、この問題にアプローチする。

学習時のフレームワーク

　前者のモジュールは主要な動きである習慣化した動作を作るために学習される。後者のモジュールは発話中の韻律によって駆動される動きであり、時間的に整合した発話の顕著性の知覚や韻律感覚に寄与している。この2つのモジュールを統合し上半身の2Dポーズで出力する。

　今回提案するモデルは音声に同期したもっともらしい自由形式のモーションを生成し、実験においても、多様性と品質、同期性の面で他のベースラインを明確に上回る結果を達成した。

Source and Image Credits: Xu, Jing, et al. “Freeform Body Motion Generation from Speech.” arXiv preprint arXiv:2203.02291 (2022).

スピーチに応じた“ろくろ回しポーズ”を自動生成、映像に反映　中国などの研究チームが技術開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

スピーチに応じた“ろくろ回しポーズ”を自動生成、映像に反映 中国などの研究チームが技術開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

スピーチに応じた“ろくろ回しポーズ”を自動生成、映像に反映　中国などの研究チームが技術開発：Innovative Tech