画面に話しかけると、3Dの初音ミクがエージェントとなって答えたり踊ったりする――そんな夢を実現する名古屋工業大学国際音声技術研究所の技術「MMDAgent」のα版が12月25日、公開された。
MMDAgentは、初音ミクなどのMMD(MikuMikuDance)キャラクターと音声で対話できるシステムで、10月のCEATECで実機デモが行われ大きな話題を呼んだ(初音ミク、エージェントになる?――名工大「MMDAgent」がもたらす未来)。
CEATEC前に公開された予告動画
今回、オープンソースとWindows版バイナリパッケージが公開されたため、自由に対話システムを構築し、さらなる拡張を行うことも可能。ソースコード、ドキュメンテーション、32bit Windowsのバイナリパッケージ、サンプルコンテンツは、専用サイトで公開されている。
ほかのプラットフォーム、特にMac、iPhone、Androidについて移植の計画と、そもそも可能かどうかについて名古屋工業大学の徳田恵一教授に質問したところ、李晃伸准教授、大浦圭一郎特任助教を含む開発チームからの回答をいただいた。
デバイス依存の部分は少ないので移植性は高いと思います。Macは実現しやすいのではないでしょうか。モバイル機器については、音声認識・音声合成を一つのデバイスで動かすのがリソース的に大変ですが、それぞれの音声モジュールは個別にモバイル機器に移植された実績もあるので、実現可能な規模や描画クオリティの調整は必要ですが、技術的に実現可能性は高いと思います。
将来的には我々の手で移植する可能性もありますが、開発リソースの制約もありますので、むしろ、公開されたソースをもとに、そういった移植が誰かの手によってなされることを大いに期待しています。
レンダリング部分はOpenGLベースです。もう少し詳しく言えば、シェーダーは使っておらず、モデルのレンダリングにマルチテクスチャ、スフィアマップ、VBO (Vertex Buffer Object) などの拡張を、セルフシャドウのために FBO (Frame Buffer Object)、デプスバッファ等の拡張を使っています。この情報も参考になれば幸いです。
Mac OS XにはOpenGLがOSレベルで実装されている。Macでは動作しないMMDのデータプレイヤーとしても有用なので、第三者によるMMDAgentの移植を強く希望したいところだ。また、OpenGLの簡易版が組み込まれているiPhone、AndroidにMMDAgentが移植されれば、かつてAppleが提唱したKnowledge Navigatorがスマートフォン上で実現できる。未来を手元に引き寄せることが可能になるのだ。
MMDAgentが発表されて今回のソフトウェア公開までに大きく状況を変えた要素がある。それはKinect。もともとはXbox 360用周辺機器で、テレビの前でのユーザーの動きを検知し、それ自体をコントローラにしてしまうものだが、その仕様、デバイスドライバが公開されたことからさまざまなソフトウェアに応用され、ついにはMMD開発者の樋口M氏がMMDをKinectドライバに対応させるに至った(Kinectで初音ミクは“人間の動き”を手に入れる!? MikuMikuDanceも対応)。
これで、高価なモーションキャプチャシステムを使わなければ不可能だったリアルなモーションデータが個人でも取れるようになった。手作業で振り付けをしていたモーションが、Kinectの前で自分の体を動かすだけで採取できるのだ。言わば「モーション用ぼかりす」。このことはMMDのモデルデータ、モーションデータを利用できるMMDAgentの追い風となるはずだ。これについて徳田教授は次のように答えている。
MMDAgentでは、簡単に音声対話コンテンツを作成できる点を「売り」にしており、ユーザーの方々がモーションを含む音声対話コンテンツを作成・公開することにより、音声対話コンテンツの2次利用が進むことを期待している訳ですが、ご指摘の通り、モーション作成をするのは、かなり手間がかかります。Kinectにより、モーション作成しやすくなれば、このようなCGM的コンテンツ制作のループ形成は更に加速されるものと思われ、我々もわくわくしながら、成り行きを見守っているところです。
ただし、Kinect対応をMMDAgentに組み込む計画があるかどうかについては、「MMDAgentはオープンソースですので、むしろユーザーの方々が自由に拡張し、思いもよらない面白いものをつくってくれることを期待しています」と慎重だ。
KinectとMMDAgentの連携について、いくつかアイデアを持ってはいるが、それを公開することによってみんなの発想を制限したくないという意向だ。「MMDAgentは、あくまでユーザーの方々が思うがままに音声対話をつくり、また、自由な発想で思いもよらない拡張をすることを期待するものであり、我々から道筋的なものは、あまり示したくない」と徳田教授は説明する。
モーションの蓄積も大きなメリットだが、Kinectを使って提案されているさまざまなアイデアにMMDAgentを組み合わせるとどうなるか。
Kinectと初音ミクの3Dモデルを使ったチャットへの応用、ヘッドマウントディスプレイを併用し初音ミクになってしまうVR体験などは既に出ている。KinectとMMDAgentを組み込んだダンスレッスンシステムも面白いだろう。自分で踊ったモーションをKinectで取得し、音声やモーションを使ってさまざまな角度からリプレイして自分の振り付けを修正したり、遠隔地にいるインストラクターからのアドバイスを得られるかもしれない。
また、モーションを取得する技術はKinectに限定されたものではない。産業技術総合研究所の「ぼかうお」のようにビデオ画像から表情モーションを高精度で取得する技術もあるし、Kinectのライバルとしてソニー・コンピュータ・エンタテインメントが投入したPlayStation Moveや、iPhoneの加速度センサー、ジャイロセンサーなども利用できるかもしれない。
オープンソースとして公開されたMMDAgentの活躍の場はこれらのモーション技術と連動することで、さらに広がりそうだ。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR