ITmedia NEWS > 製品動向 >

3分で“神調教”に? Netぼかりすα版で曲を作ってみた(1/3 ページ)

» 2009年04月28日 17時02分 公開
[松尾公也,ITmedia]

ぼかりすが実現するもの

 鍵盤楽器ができる人は、DTMソフト上でわざわざ音符を置いていくような手間はかけない。MIDIキーボードでさっと弾いて、それを編集して使う。ギタリストならば、自分で弾いたものを録音する。しかし、VOCALOIDは基本的に手入力。そこをショートカットしたいのだ。

 「それなら自分で歌った方が早いよ」。そんな人にとって、Netぼかりすはきっと福音となるだろう。自分で歌ったボーカルを、初音ミクや鏡音リン・レン、巡音ルカ、がくっぽいどといったVOCALOIDの歌声に変え、細かい“調教”をしなくても、歌った通りに再現してくれるのだから。

 「ぼかりす」(VocaListener)は、独立行政法人・産業総合研究所(産総研)の情報技術研究部門メディアインタラクション研究グループ 後藤真孝研究グループ長と、中野倫靖特別研究員らが開発した。歌声を聞き取って、その歌い方の特性をまねて歌声合成する技術だ。

画像 ぼかりすの仕組み(産総研のニュースリリースより)

 産総研は、「市販の歌声合成ソフトウェアを用いて、録音された歌唱音声の事例からその歌い方(声の高さと声の大きさ)をまねて歌声合成できる技術」と言っている。歌声だけを抜き出した音声データと歌詞を与えれば、VOCALOIDで使われているVSQファイルを吐き出してくれるというのが便利なところだ。

 つまり、ぼかりすは、歌声から音程、長さ、音量を抽出し、歌詞をマッチングさせて、歌詞データの入った、ほぼ完成形のVSQファイルを作り出してくれる。

 ほぼ完成形のVSQデータがあれば、すぐにでも初音ミクや鏡音リン・レン、巡音ルカ、がくっぽいどの声に変換して、出来上がったWAVファイルをDAW(Digital Audio Workstation:音楽制作ソフト)に取り込んで歌わせることができる。歌詞データと、歌うための数分間が用意できれば、本来かかるであろう数時間〜数十時間分をスキップできるのだ。

 しかも、VOCALOIDには難しい表現をVOCALOID Editor上で苦心して編集するよりも楽に、難しい歌唱方法を再現できる。こぶしをまわしたり、自然なビブラートをかける、というのも歌手次第といえるだろう。

 元歌の歌手さえうまければ、「神調教」と呼ばれるのも夢ではない。

Netぼかりすに必要な環境

 では、発表から1年たち、ようやくわれわれが手にできるようになった簡易版ぼかりすである「Netぼかりす」α版を使う方法を紹介しよう(VOCALOID“神調教”技術「ぼかりす」実用化へ、ヤマハと産総研が連携)。

 まず、「Net」が必要だ。インターネット環境がなければならない。なぜかというと、Netぼかりすの処理がサーバ上で行われるからだ。ローカルのPCでは、歌ったボーカルのWAVデータと歌詞のテキストデータをサーバに送り出すという処理しかしない。送ったボーカルデータを適切なVSQデータに変換して、それに歌詞を付ける作業はヤマハのサーバが行って、こちらに戻してくれる。

 なぜこういう処理になるのか。それは、この処理には膨大なデータベースと強力なCPUパワーが必要で、一般的なDTMに使われているマシンだと負荷が大きすぎると判断したためだ。将来的にPCの能力が上がったり、ソフトウェアの処理が簡略化できた場合にはローカル処理できる可能性もあるだろう。

 現在のNetぼかりすα版に必要なPC環境は、VOCALOIDソフトウェアがインストールされていること、Internet Explorer 6/7/8だ。IEにはFlash最新版・Flash 10のプラグインが必須である。ActiveXコントロールによるプラグインではなく、独立したインストーラでFlashを組み込んでおく必要がある。アプリ自体はAdobe Flexが使われているようなので、Adobe AIRでも提供してほしい。

 Flashが組み込まれたWindows版IEが必要ということは、Windows互換レイヤーである「CrossOver Mac」や「MikuInstaller」では利用できないことを意味する。これは非常に残念な点だ。VOCALOIDのインストールを確認してから起動する仕組みになっているため、HTAアプリケーションとなっているわけだが、ユーザーインタフェース自体それほど難しいものではないので、ぜひ実現してもらいたい。

実際にNetぼかりすを使ってみた

 ヤマハから提供してもらったNetぼかりすα版を、現在手元にある2つのWindows環境で試してみた。1つは、IntelベースのiMacに「VMware Fusion」をインストールし、その上でWindows Vista Home Editionを走らせたもの。IE 8とFlashの最新版を搭載している。もう1つは、日本ヒューレット・パッカードの5万円台ノートPC(Celeronベース)で、Windows XP Home EditionとIE 7、Flashという組み合わせだ。

 どちらにも巡音ルカをインストールしてある(初音ミクや鏡音リン・レン、がくっぽいど、PRIMAはすべてCrossOver Mac上にインストールしてあるのだ)。

 使うアプリは、HTAの非常に小さなアプリが1つ。これを起動すると、Flashが動き、そのマシンにインストールされているVOCALOIDが表示される。

 ここで、オーディオとテキストの2つのファイルを指定し、それをNetぼかりすのサーバに向けてアップロードする。ファイル名はどちらも適当でよく2つが一致している必要はない。

 ただし、どちらにも制限がある。オーディオファイルはWAVファイルで、3分以内。テキストファイルには歌詞が書かれたもので、その形式は、漢字交じりのテキスト。文字コードはShift JISでなければならないようだ。

 この2つのファイルを選択し、準備が終わったとのメッセージが出たらアップロードを開始する。アップロードが終わると変換が始まる。数分もかからずにダウンロード可能になり、ボタンを押すと、ローカルマシンに、変換済みVSQファイルがダウンロードされる。合計で3分以上かかることはなかった。

 あとは、変換されたデータをVOCALOID Editorで読み込むだけ。ネットに2つファイルを送れば、完成形のファイルが戻ってくるという非常にシンプルな仕組みだ。

 ここが、本物のぼかりすとはちょっと違う、簡略化された部分でもある。ぼかりすは、ユーザーと何回かフィードバックをしながら、正しいデータを作っていくという、反復処理に特徴があったのだ。ヤマハの話では、1回だけの変換でも大半はうまくいくそうなので、簡略方式にしたのだという。

 α版のテスト途中で、何度か仕様が改良された。主に、歌詞のアラインメント(音符に歌詞を当てはめていく作業)を正しく判断させるためのものだ。WAVファイルにそのまま歌詞の文字をインサートしたり、歌詞テキストに、タイムスタンプを挿入することで強制的に歌詞を読ませたり、漢字交じりではなく、ひらがなで表記することで読み間違いを防いだりといったオプションがどんどん追加されていった。

 送ることができるWAVファイルの長さも最初は1分の制限があったが、現時点では3分まで伸びている。このようにどんどん進化できるのも、ネットアプリのメリットだろう。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.