ここで使われた新しい技術はVocaWatcher。略して「ぼかうお」。梶田秀司氏、中岡慎一郎氏、横井一仁氏が知能システム研究部門ヒューマノイド研究グループから、「ぼかりす」でおなじみの後藤真孝氏、中野倫靖氏は情報技術研究部門メディアインタラクション研究グループから、知能システム研究部門インタラクションモデリング研究グループの松坂要佐氏、サービスロボティクス研究グループの松本吉央氏も参加している。

　産総研のトップダウンでの指示により、今春から部門をまたいだ協力体制が敷かれることになった。言わば産総研内コラボだ。

　今回用いた歌声には、人間の歌い手の歌唱データを元に、VOCALOID2と「ぼかりす」で合成したものが使われている。その際に歌い手の動画も撮影しており、その表情をデータ化し、未夢の表情を作り出す制御コマンドを推定する。「ぼかりす」が声の表情を取り出すのに対して、「ぼかうお」は顔の表情を取り出すのだ。「未夢から単純にぼかりすで歌声を出すだけでは自然にはならない。自然な歌声に見合う、自然な顔の表情を作るかというのが技術課題」と後藤氏。

　CEATECで公開されたデモ動画では、歌い手であるサリヤ人さんの「Prologue」歌唱動画から表情のデータを抽出し、その制御コマンドを未夢に送り出している。具体的には、顔の向き、口と目の開き、視線から未夢向けに顔表情と頭の動作を生成。唇の形状は「ぼかりす」で得た歌詞の時刻情報から制御する。

　梶田氏によれば、まだ全自動ではなく手作業を含め、半日くらいかかったそうだが、歌い手の表情はほぼ未夢に移植されており、ロボットの表情がより人間らしく動くための技術が進化したことを示した。話す部分への応用も可能だ。

　「人間の顔の動きについていくのはけっこう厳しいです」と梶田氏。「唇の横の動きを司るモーターがないため、口をすぼめるといった動作が難しい。そこがあればもっと自然になるんですが」と後藤氏の指摘に「そこは予算の問題で話が進んでないです。未夢は頭部だけで1000万もする。昨今の情勢なので予算はなかなか通らないだろう、と。まあ、わたしはこれでアリで、いいと思うんですが」と説明する。

　従来、顔の表情変化を抽出するには、モーションキャプチャのシステムで顔の多くのポイントにマーカーを付けなければいけなかったが、「ぼかうお」では動画撮影のみでOKだ。コスト削減だけではなく、より多様な画像をお手本として使える。誰でも手軽に撮った画像が使えるため、非常に幅が広がると後藤氏は効用について語る。

　ただし、首から下の部分の振り付けについては、手作業で制御する必要がある。デモ曲の1つである「Packaged」の動画は「この曲を本当に好きな学生さんががんばった」という。

　「ぼかうお」に合わせて、「ぼかりす」も進化した。今回は声色変化は用いていないため、VocaListener 2ではなく、VocaListenerがベースだが、1つ不足しているものがある。ブレス検出だ。歌うときの動作で重要なポイントとして、息継ぎがある。そこで声自体が出ていないと、表情変化と音声が合わず、不自然なものになってしまう。

　そこで、ブレスを検出し、リアルな息継ぎ音を合成するための新機能を開発した。VOCALOID2には[br1]、[br2]といったように、VOCALOIDシンガーごとに異なるブレス音が複数入っている。今回のVocaListenerではVSQでのDYN処理だけでは不十分と判断。それぞれのVOCALOIDが出す複数のブレス音をサンプリングし、信号処理で加工することで、さらにリアルなブレスを実現しているという。ここでは、隠れマルコフモデルにより学習した結果を利用して自動的にブレスを検出している（中野氏が開発）。

　「ぼかうお」は次にどう進むのか。「技術的に不十分な部分を解決して自然性を上げたい。まねることができれば、そこからモデリングしたりできる。大きな次のステップとしては、模倣ではない動作や歌声を作ることが目標」と後藤氏。

　「今回すごくおもしろかったのは、担当が異なる研究者がネットワークを組んで協力したこと。リアルな歌手を作るということがぜんぜん違うセレンディピティを生むことになる気がします。ロボットの研究者もモーションをやっている人はモーションだけ、音声やっている人は音声だけといったことがいまだに続いてますが、それではだめなんだということが今回、強烈に分かりました」（梶田氏）

　歌声合成研究の世界は初音ミクというスターを中心に動いている。「それこそがヒューマノイドを研究する意義なんじゃないかと思うんですよ。人間型ロボットはものすごくインスパイアする。素人だけではなくて、プロ中のプロをインスパイアしてくれるところがすばらしいですね」と熱く語った。