ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

自然な音声作る「WaveNet」の衝撃 なぜ機械は人と話せるようになったのか特集・音声言語インタフェース最前線(2/2 ページ)

» 2018年03月27日 11時00分 公開
[井上輝一ITmedia]
前のページへ 1|2       

「点として考える」とは

 そのようにディープラーニングができる土壌ができた上で、WaveNetは「音声を点として考える」方式を取ったという。

 音声は本来アナログ信号だが、コンピュータで扱う際には「サンプリング」および「量子化」という作業をする。例えばCD音質の「44.1kHz/16bit」というのがそれだ。これはある音声波形から1秒間に4万4100回、波形の「一瞬」を切り取り(標本化)、その波形の値を2の16乗の種類、すなわち、6万5536種類の値に置き換え(量子化)、1秒間の空気振動を4万4100個の6万5536種類からなる点というデジタルデータで表しているということだ。音声を取り扱う際には、16kHzのサンプリング周波数が比較的よく利用されており、音声の特徴をうまく活用することで、8bitの量子化でも比較的高い音質を維持できる。

 WaveNetでは、この「点」を直接DNN(厳密には畳み込みニューラルネットワーク)で処理。音声を、1秒間だけでも1万6000個の点になる巨大な系列データとして捉え、音声合成の際にはこの点を直接DNNから生成することで音声波形を形作っているという。これにより、従来の数理モデルで必要だった過程や近似などの研究者による調整作業がなくなった。

WaveNetが用いている畳み込みニューラルネットワーク(公式サイトより

 「なぜ、ボーカロイドはうまく調整してもどこか“機械っぽさ”が抜けないのか」という質問に対しては、「ああいったものは従来の数理モデルを利用しています。数理モデルは実際の現象をかなり単純化しているので、そこで大きな劣化が生まれているのが1つの要因」だと戸田教授はいう。WaveNetには単純化や近似といった、大きな劣化を生むプロセスがないことが特筆すべき点だ。

音声認識もニューラルネットワークで精度向上 「スマホ普及」も寄与

バイオリンの演奏音のスペクトログラム(Wikipediaより

 音声認識では、音声から文を推定するメジャーな方法として、得られた音声波形から「スペクトログラム」という、波形を短時間で切った周波数成分(音色)を時系列に並べたものをまず作成する。このスペクトログラムに適切な数理モデルを使用することで文を推定していく。

 「従来よく使われてきたのが『隠れマルコフモデル』(HMM)という統計学の確率モデルで、このモデルではどこからどこまでが1つの音に対応するかを決める必要がありません。ニューラルネットワークを利用する研究は昔からありましたが、米Microsoftが2010年ごろに発表した、HMMとDNNをハイブリッドで使うモデルが注目を浴び、それから多くの音声認識研究者がDNNを利用するようになりました」(戸田教授)

 近年はHMMを用いないモデルも出てきており、「どんどんブラックボックス化してきている」と戸田教授。最近よく利用されるのは、『再帰型ニューラルネットワーク』(RNN)を用いたモデルだという。

 RNNは、過去の履歴から次に来る単語を予測するニューラルネットワークで、例えば「今日は晴れ」というように文が続いたら「次に来るのは『です』の確率が高い」と計算する。

 こうした新たなアルゴリズムの登場や、データ量・計算能力向上の他に、「スマートフォンの普及」も音声認識精度の向上に一役買っているという。

 「iPhoneなどのスマートフォンが普及することで、世界中の人々が同じデバイスで収録できるようになりました」(戸田教授)

 収録環境が統一されることで、音声データにおける人以外のばらつき要因が少なくなる──スマホの普及は、こんなところにも効果をもたらしているようだ。

研究業界の「知識共有」 今後“データ格差”による懸念も

 音声認識や音声合成技術が発展している要因として、「業界全体がうまく回っているということもある」と戸田教授は語る。

 「業界として、新たな手法が出てきたら共有して改善していくという流れがあります。最近はオープンソース化も進んでいるので、作りたいソフトウェアのプロトタイプも簡単につくれるようになりました。皆が知識を共有して改善していけることがこの業界の良いところで、急にブレークスルーが起きたように外からは見えるかもしれませんが、長年の技術の積み重ねだと思います」(戸田教授)

 一方で、ディープラーニングを取り入れた音声認識・合成技術の精度を左右する大きな要因がデータ量であることから、企業と大学での知識共有に懸念も抱いているという。

 「スマートフォンやスマートスピーカーを普及させて音声データを取れる大企業と、それがない大学とでは持っているデータ量の差が開いてきていています。音声認識・合成の精度はデータ量の増加による改善とアルゴリズムによる改善がありますが、大学で研究しているアルゴリズムの改善を、大企業ほどの大規模なデータに適用した時にも効果があるのかどうかが分かりません。もし効果がないのであれば、大学と企業の間で知識の共有がうまくいかず、ミスマッチが起こるのではないかということを一番心配しています」(戸田教授)

 持つ者と持たざる者の格差が、今後の業界の発展に影響を及ぼすのではないか──そう懸念する戸田教授。そんな中でも、WaveNetはその詳細を「arXiv」(読み:アーカイブ、査読なしの論文投稿サイト)に公開していることから、戸田教授はWaveNetを応用する研究を始めている。従来の数理モデルから合成波形を生成する過程にWaveNetを導入し学習させることで、企業ほどは多くないデータ量と、GPU1つ程度の計算能力で音声合成の精度を改善できるのではないかというアプローチに取り組んでいる。

 「データを集めることは企業に任せて、大学の研究者はそれ以外の部分にフォーカスした方がいいかもしれません」(戸田教授)

 大学と企業がいかに知識共有していくかが、今後の音声技術発展の要になりそうだ。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.