スピーチに応じた“ろくろ回しポーズ”を自動生成、映像に反映 中国などの研究チームが技術開発:Innovative Tech
中国科学技術大学とJD AI Researchの研究チームは、発話に応じた上半身の動作を自動で生成するモデルを開発した。単調な動きだけを繰り返すのではなく、韻律(抑揚、音調、強勢、音長など)を考慮した自然な動作を生成する。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
中国科学技術大学とJD AI Researchの研究チームが開発した「Freeform Body Motion Generation from Speech」は、発話に応じた上半身の動作を自動で生成するモデルだ。単調な動きだけを繰り返すのではなく、韻律(抑揚、音調、強勢、音長など)を考慮した自然な動作を生成する。
プロの話し手は、発話と同時にボディーモーションを行い情報を効果的に伝える。発話に合わせた口唇運動の生成は広く研究されているが、発話から身体の動きを生成する研究はまだ未発展のままだ。口唇運動は発話と連動させるのが容易なのに対し、発話からボディーモーションへの変換は非常に不確定要素が多い面を持つ。
実際、発話中の身体運動は同一人物が2回続けて同じ発話をしたとしても、その発話者が同じ体動を示す保証はない。長時間のスピーチでは、ポーズの雰囲気も変わってくるだろう。同じスピーチ音声でもモーションの形態が固定されるとは限らず、異なるスピーチでも同じモーションシーケンスと相性が良い場合もある。
あらかじめ定義されたジェスチャーセットを適応する方法もあるが、特定の話者/スタイルの動作をある程度模倣できても、動作の多様性や忠実性の点で限界があり、特に長時間のスピーチではその傾向が顕著である。
研究では、単調な動作の繰り返しではなく、発話中の韻律を加味した動作を生成する。話し手が特定のトピックを中心に長いスピーチを話すトークビデオにおける動作に焦点を当てる。
音声合成によるボディーモーション生成は、入力音声に対応する動作シーケンスを生成することである。そのためには、音声から身体運動への対応付けが必要である。研究チームは身体運動をPose modeとPhythmic motionの2つのモジュールに分解し、この問題にアプローチする。
前者のモジュールは主要な動きである習慣化した動作を作るために学習される。後者のモジュールは発話中の韻律によって駆動される動きであり、時間的に整合した発話の顕著性の知覚や韻律感覚に寄与している。この2つのモジュールを統合し上半身の2Dポーズで出力する。
今回提案するモデルは音声に同期したもっともらしい自由形式のモーションを生成し、実験においても、多様性と品質、同期性の面で他のベースラインを明確に上回る結果を達成した。
Source and Image Credits: Xu, Jing, et al. “Freeform Body Motion Generation from Speech.” arXiv preprint arXiv:2203.02291 (2022).
関連記事
- キーワードからAIが文章生成 ニュース、メール、職務経歴書に対応 東大松尾研発ベンチャーがデモサイト公開
東京大学・松尾豊研究室発のAIベンチャーELYZAは、キーワードから約6秒で日本語の文章を生成できるAI「ELYZA Pencil」を試せるデモサイトを公開した。キーワードを数個入力すると約6秒で日本語のタイトルや文章をAIが自動で生成する。 - テキストから御朱印を自動生成するシステム、筑波大が開発 寺社1000カ所以上から御朱印収集、データ化
筑波大学落合研究室の研究チームは、テキストから御朱印を自動生成する学習ベースのシステムを開発。訓練用のデータセットは、寺社1000カ所以上を訪問し取得した御朱印を基に大規模にデータ化した。 - 手書きスケッチがリアルな髪形に イラストから髪形を自動生成するAI、香港の研究チームらが開発
香港城市大学と香港中文大学、中国の浙江大学の研究チームは、プロではないユーザーがフリーハンドで描いたスケッチから、さまざまなヘアスタイルのフォトリアリスティックな髪の画像を自動生成する学習ベースのネットワークを開発した。 - テキストだけで、AIが3Dモデルを自動生成 米Googleなどの研究チームが開発
米Google Researchと米カリフォルニア大学バークレー校の研究チームは、自然言語の記述のみからデジタル3Dオブジェクトを生成するZero-shot learningを使ったアプローチを提案。3Dの学習データを必要とせずに形状や色、スタイルを柔軟に制御する。 - 音楽からふりつけを自動生成 ポップスやジャズなどに合わせてキャラクターがダンス
中国の研究チームは、音楽からキャラクターの振り付けを自動生成するダンスモーション合成システムを開発。ポップスやヒップホップ、ロック、ジャズなど、さまざまな音楽スタイルのリズムに応じた動きを作り出す。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.