米パデュー大学の研究チームが開発した「AlterEcho: Loose Avatar-Streamer Coupling for Expressive VTubing」は、バーチャルYouTuber（VTuber）の配信において、ストリーマーの実際の動きよりも表現豊かな動きとして拡張し出力するシステムだ。このシステムは、Webカメラやスマートフォンのカメラで動きを捉える、安価なモーションキャプチャーシステムで使える。

（a）ストリーマーと連動した従来の動き、（b,c）ストリーマーの音声や表情から推定し拡張した動き、（d）ストリーマーが一定時間止まった際の動き

　モーションキャプチャーやコンピュータアニメーションなどの技術進歩により、高価な機材をそろえなくてもVTuberとしての配信ができるようになってきた昨今だが、Webカメラやスマホに基づいた単純なモーションキャプチャーのセットアップではアバターの動きは乏しくなるのが現状だ。

　他方で、全身の動きをリアルタイムに追跡するモーションキャプチャースーツに頼ると、予算やスペースの制限、ボディースーツや手袋を長時間着用することへの不快感の問題がある。あらかじめ設定した動作を実行させるホットキーを使ったアバター・アニメーションは、ゲーム実況中に驚いたとほぼ同時にホットキーを押すのは難しいなど、ストリーマーにとって負担が大きい問題がある。

　さらに根本的な問題として、アバターはストリーマーの動きを模倣しているだけなため、それ以上の表現を制限する課題も残る。

　この研究では、ストリーマーが明示的に介入しなくても表現豊かなアバター・アニメーションを生成できるシステムを提案する。

　このシステムは、Webカメラやスマホなど安価なシステムで捉えたストリーマーの動きを、単純にアバターに反映するのではなく、指定したアバター・ペルソナのパラメータなどを考慮した上で、ストリーマーの本来の動きと、その動きや音声の分析結果からトリガーした動きをブレンドしたアニメーションを出力する。

　システムが生成する動きには、3つのジェスチャー（結び付きのあるジェスチャー、推定のあるジェスチャー、即興のジェスチャー）がある。1つ目の結び付きのあるジェスチャーは、これまでと同じく、ストリーマーの頭部や口、表情などと連動した動きを示す。

　2つ目の推定のあるジェスチャーは、ストリーマーのトラッキングから得られる音声（音声認識、音響分析）や表情（顔の表情認識）などに基づいて生成した動きを示す。例えば、“well”／“ok”と言ったときにアバターが肩をすくめたり、“wait”と叫んだ後に数秒以上の沈黙があったときにアバターが頭を両手でつかんで不安を表したりする。

　ビートジェスチャーは、ある音量以上の単語を発したときにトリガーされる。喜びや悲しみ、怒りの表情をトラッキングすると、機械学習モデルによって分類して、アバターの動きへとつながる。

　3つ目の即興のジェスチャーは、ストリーマーから完全に独立し、数秒間止まった場合に作動するジェスチャーを示す。例えば、過去数秒の間に何も起こらなければ、腕を組んだり、バーチャルな猫をなでたりなど、癖のような動きを実行する。

315人のユーザーに評価実験。結果は？

　　　　　　 1|2 次のページへ