画面に話しかけると3Dの初音ミクがエージェントとなって答えたり踊ったりする――そんな技術が話題を呼んでいる。
名古屋工業大学国際音声技術研究所(代表:徳田恵一教授)では、内部で開発してきた音声合成ツール、音声認識エンジンや3D技術を用い、音声による指示にキャラクターがモーションと音声付きで応答する音声インタラクションシステム構築ツールキット「MMDAgent」を「CEATEC Japan 2010」(10月5日から、千葉・幕張メッセ)で展示する。9月21日夕方にニコニコ動画で展示内容ムービーを公開し、一夜で再生数2万を超える人気を得ている。
名古屋工業大学といえば、楽譜を入力するだけで自然な歌声で歌い上げる歌声合成技術「Sinsy」が昨年末にニコニコ動画で発表されて話題となった。MMDAgentにはこれと共通する技術基盤が使われている。
MMDAgentで使われているテキスト音声合成技術のOpen JTalk、統計的手法を用いて声を学習する音響モデルのHTS、音声認識のJuliusは、名古屋工業大学で開発されたもの。
3D描画技術はOpenGLベースで、初音ミクなどの仮想キャラクターを自在に動かす3Dモデリング・モーションツールとして幅広く活用されているMikuMikuDance(MMD)と高い互換性を持ち、モデルおよびモーションデータをインポート可能だ。この部分はJuliusの開発者でもある李晃伸准教授が担当。いくつかのオープンソースのソフトウェアやファイル形式解析Webサイトなどを参考に開発した。
Juliusは数万語の豊富な語彙(ごい)を持ち、音声をほぼリアルタイムで認識。HTSを用いた音声合成は音声に感情表現を付加、3D画像のリップシンクにより、リアルでレスポンスのよい応対を実現する。初音ミクの声の特徴を取り込んだのも、HTSの話者適応技術によるものだ。
デモ動画では人気の高いLat式初音ミクのMMDモデルデータを使い、ユーザーの指示に答えたり、MMDAgent用の独自モデルであるメイちゃんがMMDダンスモーションを使って自在に踊ったりもする。CGMで生み出されたデータをそのまま利用できるエージェントシステムとも言える。
このシステムに使われているソフトウェアはオープンソースから構成されている。MMDAgentツールキットはフリーソフトとなり、独自3Dキャラクター「メイちゃん」のPMDモデル、簡単なデモ用スクリプトも含め、年末を目標にsourceforge.netで公開予定だ。昨年のクリスマスにはSinsyが発表されているので今年もそのあたりで期待できるかもしれない。
メイちゃんについて徳田教授にさらに聞いてみた。名前の由来は名工大の名(メイ)から取られている。モデルの開発は、MMDAgentプロジェクトメンバー(徳田氏、李氏、大浦圭一郎特任助教)が外注業者を使って行い「リアルとアニメの境界を狙うというコンセプトでかなり時間と労力をかけ試行錯誤しながら作った」という。
企業やイベントの受付などのビジネスユースからゲーム、個人ユースまで、さまざまな用途に使えそうだが、ニコニコ動画には「ラブプラスに組み込んでくれ」「イブの時間じゃないか」「次はモニターに入れるようになる装置をつくって」といった熱いコメントが書き込まれている。
MMDAgentを等身大のデジタルサイネージ用ディスプレイに組み込んだものが、10月5日から開催されるCEATEC Japan 2010に出展される。実物大のメイちゃん、初音ミクがあなたの声に応対してくれるかもしれない。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR