ITmedia NEWS > 科学・テクノロジー >

3次元声色空間で声の変化までを模倣する「ぼかりす2」 鏡音リン疑似Appendの仕組みとは?歌声情報処理最前線!

» 2010年07月30日 17時04分 公開
[松尾公也,ITmedia]

 「歌声情報処理最前線!」と呼ばれるスペシャルセッションが7月28日、つくばグランドホテルで開かれた。情報処理学会 音楽情報科学研究会による企画だ。

 歌い手の歌唱を分析してその歌い方をVOCALOIDに転写することができる「神調教」技術、ぼかりすことVocaListenerの新バージョンであるVocaListener2、楽譜を与えるだけで自然な合成音声で歌ってくれるSinsy、歌詞を与えれば自動作曲して合成音声で歌うOrpheusなど、さまざまな最新の歌声情報処理技術がここで披露された。 ここに、発表された論文、スライド、動画が公開されている。

 これらの技術には、VOCALOIDやUTAUなどの楽曲制作に有用なだけでなく、「歌ってみた」でも歌唱を助けたり、カラオケの練習から本番でより楽しむ、といったところまで支援してくれるものが含まれている。そのうちのいくつかを紹介しよう。

photo 発表する中野氏

 発表順では3番目になるが、まずはVocaListener2(以下、ぼかりす2)のリポート。論文発表に先立ち、すでにニコニコ動画にはこの新技術のデモ動画が投稿されている。

 VOCALOID界隈では産総研Pと言われている、中野倫靖氏と後藤真孝氏のチームによるものだ。産総研Pによる動画は、これまで17種類の日本語VOCALOIDすべてをカバー。特に「大漁船」というド演歌をデモソングとして使っており、今回もこの楽曲でのデモが行われた。


 ぼかりす2は「VocaListener2: ユーザ歌唱の音高と音量だけでなく声色変化も真似る歌声合成システムの提案」とある。ユーザーの歌声と歌詞データから音量、音高を推定していたVocaListener1(ぼかりす1)の研究をさらに押し進め、声色の変化を真似ることにも成功した。

 2008年4月28日のぼかりす1作品である初音ミク版「PROLOGUE」投稿後、産総研Pは次々と新しい動画を披露してきた。同年9月22日には初音ミク、鏡音リン、巡音ルカ、KAITO、MEIKO版の「大漁船」を一斉投稿して、同じユーザー歌唱がどのVOCALOID音源にも適用できることを示した。09年4月27日には、ぼかりす1の技術について詳細に紹介する動画を見せるとともに、ぼかりす1をヤマハと共同開発によりネットサービスに適用したNetぼかりすα版を発表。αテスターによる投稿も多数行われた。

 さらに同年8月4日には、これまで日本語DBでしか利用できなかったものを英語にも対応させた、巡音ルカによる「Julia」を投稿。その後、新しいVOCALOIDが出る毎に「大漁船」などにより、同じユーザー歌唱で動画を投稿し、GEN(音色を男性っぽく、女性っぽく変化させるVOCALOIDのパラメータ)を変更した場合にどのような違いを生むかという動画が投稿され、クリプトン・フューチャー・メディアから初音ミクAppendがリリースされると、そのそれぞれに対応した「大漁船」も投稿された。

 ぼかりす2の説明を行った中野氏は、4月30日に初音ミクAppendが発表されたことがきっかけだったと語る。標準の初音ミクに、Dark、Soft、Sweet、Light、Solid、Vividの6つのDBが新たに加わることで「同じ声の高さでもこれだけ表現が違う。これを活用して行くことを考えた」

 「ユーザー独自の歌唱の音色変化も真似る」ことにした。現状のVOCALOID2では、Singerを切り替えるしかなく、「滑らかな音色変化」ができないからだ。ここでぼかりす1の資産が生きることになる。それぞれのDBで、同一のユーザー歌唱による歌声を生成すると、同期して再生した場合に同じ時刻で再生されているそれぞれのDBは、同じ音高、音長でありながら、異なる音色を持つ。その中間的な音色を信号処理で生成し、時系列で変化させていくのだ。

 ぼかりす2では、声色の違いを「スペクトル包絡(声道特性)の形状の違い」としてとらえている。音色を示す曲線の形が声色毎に異なり、各DBの変化を時系列に追って行くと、それがチューブ状になる。これを声色変化チューブと呼ぶ。SweetからSolidまで、さまざまな声色の変化の範囲を示すのがこれ。その範囲内でユーザー歌唱がどのように動くかを推定することで、トーンの変化を再現するという仕組みだ。

 実際に音色の動きを追ってみた動画を見ると、ユーザーの歌唱が変化するのに従って、中心となるDBが遷移しているのが分かる。例えば、大漁船の歌詞「俺を 酔わせるよ 熱い あ 夢ちぎり」では、俺を(Sweet)酔わせるよ(Dark)熱い(Soft)あ夢契り(Vivid Solid)が中心となっているように見える。

 中野氏によれば、初音ミクAppendのうち、Light、Solid、Vividが近いグループにあり、もう1つ、SoftとDarkも近いグループにある。「Sweetはやさしさの極み」で、これだけ突出。これらは実際の聴取印象を反映していると指摘している。初音ミクAppendについて、クリプトンの佐々木渉氏に話を聞いたときのDBの説明とも一致する。中野氏は、「初音ミク」が各DBのセンターの位置に来ていることに驚いていた。

「鏡音リン疑似Append」とは?

 それぞれのAppend、例えば初音ミクAppend Lightから初音ミクを引いた差分は、Append Lightのスペクトル変形曲面として表すことができる。

 では、鏡音リンのスペクトル包絡に初音ミクAppendのスペクトル変形曲面を転写するとどうなるか? 「鏡音リン疑似Append」が生まれるのだ(この名前はクリプトンから許諾済み)。

 鏡音リンAppendは、クリプトンが現在開発中で、初音ミクAppendとは異なるバリエーションになることが示唆されているが、それとはまったく別個に、初音ミクAppendのバリエーションを鏡音リンに適用するとどうなるかという実験を行ったものが、やはりニコニコ動画に投稿されている。

 これは、初音ミクAppend Darkの音色を、元気はつらつとした鏡音リンの歌声に転写したもの。かなり大人びたリン演歌となっている。このほかにもLight、Soft、Sweet、Solid、Vivid版が作られている。

 ぼかりす2があれば、DBが1つしかなくても、さまざまな音色変化ができるかもしれない(現時点では女性VOCALOID同士以外では難しいらしい)。また、アクティブに声色を変化させ、SweetにSweet変形曲面を適用することで「超スイート」を作り出すことも可能だ。

 ぼかりす1ではユーザー歌唱を真似たVSQファイルを出力し、それをさらに加工することが可能だが、ぼかりす2ではSTRAIGHTなどの信号処理ソフトを使うため、もう一度VOCALOID Editorで編集するといったことはできない。ただ、これも「声色変化チューブを、例えばGENパラメータを変えた複数の声から構成すれば、パラメータ推定に応用できる可能性がある」とあるので期待したい。

 「人間らしい歌い方」を求め、バーチャルシンガーに置き換える技術がさらに一歩進んだのは確かだ。今後は「汎用的な声色転写」実現を目指すという。一方、Appendのような同一歌手複数DBを扱う方法として、VOCALOIDの次バージョンがどのような実装をするのか、興味深いところだ。

Copyright © ITmedia, Inc. All Rights Reserved.