「VOCALOIDは人間の歌手の単なる代用以上のものでないといけない」――ヤマハのVOCALOID開発者・剣持秀紀さんは3月10日、東京大学で開かれた情報処理学会の講演で、こんな思いを打ち明けた。歌ってくれる人が身近にいないから仕方なく使うのではなく、「VOCALOIDの方がいい」と積極的に選んでもらえるようにし、ユーザー層や利用シーンを広げていきたいという。

音声合成は50年の歴史　VOCALOIDは「いいとこ取り」

歌声合成の歴史

　VOCALOIDの開発がスタートしたのは2000年3月。今からちょうど10年前だが、歌声合成の歴史はさらに前、1961年、ベル研究所でのIBM 7094が歌った「Daisy Bell」にさかのぼり、この50年でさまざまな研究が重ねられてきたという。

　歌声合成のアプローチを剣持さんは、大きく3種類に分ける。（1）純物理モデル「フィジカルモデル」、（2）物理的な機構にとらわれず、歌声をそのまま扱う「スペクトラルモデル」、（3）（1）と（2）の中間的なモデル――だ。VOCALOIDはフィジカルモデルとスペクトラルモデルの「いいとこ取り」。世界の音声合成研究の成果を取り入れて開発したと、剣持さんは話す。

VOCALOIDもメトロノームのように

　「初音ミク」などVOCALOIDソフトがヒットしたのは、人間の声の代わりに便利、という理由だけではない。「ミクなら音程を外さず、思い通りに歌ってくれる」「ミクが好きだから」「ミクを使うと注目を浴び、聴いてもらえるから」――など、人間にはできない、“VOCALOIDだからこそ”の機能が人気を引っ張った。

　VOCALOIDが目指す未来の姿として、剣持さんはデジタルのメトロノームを挙げる。メトロノームは以前は、アナログが主流。デジタル製品はアナログの代用として登場したが、「正確」「持ち運びやすい」「チューナー機能を備えたものもある」などアナログにない機能が魅力となり、現在はデジタルが主流になっているという。

　メトロノームのように歌声も、デジタルが主流となる日が来るだろうか。「15年後には、あの歌手は合成じゃなくて生で歌ってるんだって。イマドキ珍しいよね、という世界がくるのでは」――剣持さんはそんな未来を目指している。

VOCALOIDを広げるために

　VOCALOIDは今後、声のバリエーションや利用場面、ユーザー層の拡大を目指していく。

　声のバリエーションでは現在、スペイン語版を研究中で、スペイン語の歌をうたわせたデモ（未公開の歌声データベースを使用）も披露した。「世界の言語にトライしたい」と剣持さんは意気込む。しゃべる音声を合成できる「VOCALOID-flex」も開発。歌声と読み上げ音声の中間的な発声に対応したソフトは、「意外と手つかずの分野」という（「テキストの音声化ではない」　しゃべるVOCALOID「flex」が狙う市場）。

　VOCALOIDの利用場面は、今は楽曲制作やニコニコ動画での公開などに限られているが、合成エンジンをリアルタイム操作に対応させ、ライブコンサートなどでも使えるようにする――といった未来も描く。

　初音ミクのヒットにより、専門的なスキルがない人も楽曲制作に興味を持ち始めており、初心者向けの楽曲制作マニュアルや、VOCALOID用VSQファイル販売サイトも登場している。誰もが簡単に作ったり、みんなで共同制作したりといった環境が整っていくことで、ユーザー層も広がっていくと剣持さんはみている。具体的にプロジェクトが動いているわけではないものの、VSQフォーマットをWiki形式で共同で編集していくというアイデアも語った。