ITmedia NEWS > ネットの話題 >

さらにリアルな歌声を手に入れたVOCALOID――Netぼかりすの進化と本家ぼかりすの未来(2/3 ページ)

» 2009年08月05日 11時59分 公開
[松尾公也,ITmedia]

Netぼかりすは進化している

 Netぼかりすα版は最初の公開から3カ月が経過した。その間にかなりの進化をしているのだ。

 4月に公開した「3分で"神調教"に? Netぼかりすα版で曲を作ってみた」記事執筆時にもどんどん新しい機能が追加され、ユーザーがより効率的に自分の声を写し取れるようになっていた。執筆後にもテスターの意見を取り入れたり、本家ぼかりすの機能実装を最適化したりといった努力がなされている。

 例えば、以前のバージョンでは「音量変化が忠実に写し取られないために声の立ち上がりが不自然になる」といった現象が見られた。このため、音量カーブを手書きで再調整したりする手間がかかったり、成果物の品質がイマイチだったりしていた。これが、現在のバージョンではより本家ぼかりすに近づいたものになっている。

 また、前回の執筆時点ではなかった機能として、歌い手のピッチを補正するFIXPITCHというオプションが追加された。元歌のメロディーラインの音高変化が半音単位となるように音高をずらす機能で、ユーザーの歌い方をなるべく保持したまま、歌全体の調子はずれの度合を減らすことができる。この機能では、DAWソフトで元歌にAuto-Tuneをかけたりするのに似た効果を与えられる。

 音量の上下そのものを抑えるためのオプションもある。DYNRANGEで数値を設定すると、音量変化の上限が設定され、極端な揺れがなくなる。

 自分の声には自信ないけど、できるだけ短時間でVOCALOIDのデータを入力して、そのまま歌わせたい……。そんな希望が簡単にかなえられることになる。

 また、既にVOCALOIDに歌わせたデータがVSQ形式である場合、そのデータと、元歌のWAVデータを同時にNetぼかりすサーバに送ることで、正しい歌詞、テンポ、ピッチを得られるオプションも提供されている。

α版は終息、次のフェーズへ

 現在のNetぼかりすα版は、歌詞の入ったテキストデータ、元歌のWAVデータ、そしてオプションとして、歌詞とメロディーラインをWebブラウザベースのアプリから入力し、完成したVSQ(VOCALOIDのデータフォーマット)データが吐き出されるという形式だ。

 歌詞のフレーズ位置を時間指定する場合などは、歌詞テキストの該当部分にタイムコードを追記したり、各種パラメータも数値指定したりするなど、現在のαテスターなら手慣れていても、まったくの初心者が気軽に使うには難しい部分もある。

 こういった現在の仕様は、Netぼかりすの次のフェーズでは変わっていくかもしれない。

 ヤマハY2プロジェクトの大島治技師補は、「これで評価フェーズは終息となる」と宣言。先進的なユーザーによる評価と機能改善はこれでいったん終了する。次に待っているのは、おそらく使い勝手の向上だ。

 次項で紹介する本家ぼかりすは、マウスオペレーションによる範囲指定、「ダメ出しインタフェース」という優れたユーザーインタフェースなど、現在のNetぼかりすでは実現が難しいものが多い。

 こういったものをそのままNetぼかりすに実装するのはプログラミングやサーバなど、さまざまな問題が予想される。また、実際に商品化する場合には価格体系やパートナー企業との連携の方法といった部分も重要な要素である。現在のVOCALOIDユーザーとはまったく異なる新たな市場に向けた展開も考えられるだろう。αテスターからも複数のアイデアが出された。

 現時点では、価格体系、スキルが高い人向けか、そうでないのか、どのVOCALOIDがサポートされるのか、を含めて未定だ。

 Y2プロジェクトのNetぼかりすはこれからβ版に着手する。α版では「本家ぼかりすの成果をシンプルに引き出す」ことを目標としていたが、これからは違う方向性を目指していくことも考えられる。どのような形態で一般ユーザーが利用できるのか。ヤマハからの発表を待つことにしよう。

 次に、Netぼかりすのコア部分に採用されている、産総研の本家ぼかりすを紹介しよう。

「本家」で自分の歌を初音ミクに歌い直してもらった

 ぼかりすは産総研の情報技術研究部門メディアインタラクション研究グループ 中野倫靖特別研究員と、後藤真孝研究グループ長の2人によって開発された研究成果物。Netぼかりすとは異なり、一般の人は操作することはできない。デモもほとんど公開されたことはない。Netぼかりすα版テスターは、そのデモを実際に見ることができた。

 それどころではない、自分の歌声を「本家ぼかりす」に入力し、初音ミクの歌声でアウトプットすることができたのだ。またとない機会だったので、その様子をお届けしよう。

 サンプルとして使ったのは、Netぼかりすα版使用作品として発表した自作曲「四時から夜まで」。

 この最初のワンフレーズを本家ぼかりすに入力し、音声出力を得るところまでもデモしていただいた。

 用意したのは、Netぼかりすと同じく2つのファイル。ボーカルのみを入れたWAVファイルと、歌詞の入ったテキストファイルだ。

 まずSingerを指定する。画面左下にある「Singer」をクリックすると、「KAITO/1」「MEIKO/1」「Miku/2」「Rin_ACT2/2」「Len_ACT2/2」「Gackpoid/2」「Luca_JPN/2」が表示される(この時点ではメグッポイドは未実装だったが現在は対応している)。そこから初音ミクの「Miku/2」を選択。末尾の「/2」はVOCALOID2を意味しているようだ。

 Singerの次には、その右にあるGENのパラメータを指定する。GENパラメータは、声の女性っぽさ、男性っぽさを指定するパラメータで、標準は64。これは後でも変更可能。ここは標準のままにした。

 ここでWAVファイルを読み込む。今回は難しそうなフレーズをということで、かなりフェイクを入れてブルースっぽく歌ったボーカルを選んである。手入力だけでこのフレーズをVOCALOIDにうたわせるのはかなり困難だと思われる癖球(くせだま)をわざと投げてみたつもりだ。

 元の音声は、iMacに付属するGarageBandで、EdirolのUSBオーディオキャプチャUA-5を通して録音したもの。マイクはSHUREのヘッドセットマイク。パソコンの前で、防音もされていない部屋で歌ったものなので、ノイズが乗っていてお聞き苦しいのはご容赦いただきたい。

 歌詞はひらがなにした状態で読み込む。漢字かな交じり文の解析も可能だ。今回はあらかじめひらがなにしたファイルを読み込んだ。読み込んだ文字列は、Lyricsというところに表示されている。

 WAVファイルが読み込まれると、声の高さと音量が解析されて一番上のウィンドウに音の高さ、下に音量が表示される。

画像

 サンプルに使った元音声はかなりフェイクしたもの。最初の分析では音の高さの解釈でいくつかミスしたポイントが生じていた。Netぼかりすではそのままに処理されてしまい、後での編集作業が困難になってしまうところだが、本家ぼかりすでは正しく音高(音程)がとれている部分を範囲指定することにより、間違った音高を排除することができる。

画像

 この図の上の点がばらけている部分が、誤ったと思われるポイントだ。

画像

 このように、正しい部分だけを選択して再処理すると、次の図のように、誤ったポイントが排除される。

画像

 ここで、あらかじめ入力しておいた歌詞とメロディーを合わせる作業に入る。この作業は、「歌詞アラインメント」と呼ばれるものだ。Netぼかりすではサーバ上で作業が行われ、変換が終了するとダウンロード可能になるが、本家ぼかりすではコマンドライン上での作業状況が分かるようになっている。歌詞アラインメントが終わった画面が次のものだ。

画像

 歌詞がメロディーに割り付けられたものをすぐに確認できるのは便利。最初の歌詞アラインメントでこの状態で再生したが、「朝も昼も」の「ひ」の部分が不自然だった。ここは「ひ」の長さ、位置の判断がおかしいと判断できる。

 不自然な部分があれば、その部分で「ここはダメ」と指定すると、次の候補でトライしてくれる。「1番目か2番目の候補でだいたいうまくいく」と中野氏。実際、「ひ」の部分を指定すると、2番目の境界判断でうまくいった。

画像

 この状態で、初音ミクに歌唱させた音声がこれだ。手作業で修正する必要のないレベルになっている。

 同じ音声データをもとに、Netぼかりすを使って無編集のままWAV出力したものとその画像、そして、VOCALOID Editor上で修正を行い、WAV出力したものを比較対象として挙げておこう。

画像
画像

 本家ぼかりすでは、正しくとれていない音程を排除したことで、音高判断の極端なミスがないためか、歌詞アラインメントでのミスも少ないのが分かる。Netぼかりすのピッチのゆらぎは、ピッチ取得の誤判断のようだ。ニコニコ動画へのコメントでは「おばさんっぽい」とされているのは、どうもこの部分のようだ。

 NetぼかりすからVSQデータが上がった後は、どこまでレベルを人間の声に近づけていくかは作業する人の判断にまかされる。そこは波形をいじっていかなければならないので、かなり手慣れた人でも、ピッチの解釈ミスを1つ1つ修正していくのには相当の時間がかかる。これが、本家ぼかりすでは「範囲を指定する」「間違ったところはそこを指摘する」という2つの作業だけで済む。これは驚異的に楽だ。

 バッチ処理のNetぼかりすとインタラクティブな本家ぼかりす。マニュアルな操作が必要ということがわずらわしく感じる向きもあるかもしれないが、その作業は最小限で済むようになっている。気になる部分で「ダメなら次の候補」で指定するだけでいいのだ。これを「ダメ出しインタフェース」と呼んでいる。

 元の歌声があって、理想とする歌い方にするための工程が、Netぼかりすで半分になるとすれば、本家ぼかりすは、それをさらに数分の1に圧縮するものだ。特に、「ミスの修正」に多大な時間を費やすことを避けられる。この意義は大きい。

Copyright © ITmedia, Inc. All Rights Reserved.