当時NTTが研究していたのは、隠れマルコフモデル(Hidden Markov Model)と呼ばれる確率モデルを用いた音声合成だった。これは、周波数や持続時間などの組み合わせを機械学習で覚えさせ、音声波形を生成(推定)するもので、少量の音声から短期間で人の声を再現できるようになったという。
「声優さんの負担も少なくなりましたし、録音から2週間くらいでシステムが完成するようになりました。製作費も数十万程度にまで下がったのですが、声質や抑揚といった点では波形接続方式にかなわず、特に想定したシナリオから外れたような言葉をしゃべらせようとすると、機械っぽさが出てしまうのが難点でした」(鳥居さん)
そこで研究者たちが目を付けたのが「深層学習(ディープニューラルネットワーク=DNN)」だ。NTTでも4年ほど前から研究を重ねており、2017年12月に音声合成ソフトウェア「FutureVoice Crayon」に実装した。同社が持つ音声データベースを学習に活用することで、話者の音声データが少なくても、他人のアクセント情報などを補い、自然な音声合成を実現するという。
FutureVoice Crayonはクラウドサービスで、50パターン以上のバリエーションを利用でき、声の太さや高さ、抑揚などをパラメータとして変更することも可能だ。日本語以外にも英語やドイツ語、フランス語をはじめとした10言語に対応しており、30分程度の録音でも人間の声と遜色ないような高品質な音声合成が行えるという。
「NTTドコモの対話サービス『おしゃべり』やヴイストンのロボット『Sota』などに、この技術を提供しています。外国語にも対応しているので、増え続けている訪日外国人向けへのサービスなどへの応用も考えられます。最近では、キャラクターやロボットのオリジナルの声を作りたいという引き合いが強いですね」(鳥居さん)
NTTだけではなく、AppleやMicrosoftといった巨大ITベンダーも機械学習による音声合成に取り組んでおり、人工知能やロボットの普及によって、その需要は高まり続けている。地方ラジオ局でのニュース読み上げにも導入された例からは、労働力減少への対策になる可能性も感じられる。現在急速に音質が向上している音声合成だが、まだまだ進化の余地はあると鳥居さんは言う。
「ある程度クリアな30分以上の音声をベースに、人間がチューニングを行わないと、質の良い声を再現できないのが、今の技術の限界です。将来的には、少し話した音声をベースに、自動的に質の良い似た声を作れるようになるでしょう。他にも、翻訳技術と組み合わせて、日本語を話した“その人”の声で、自動的に外国語が話せるようなことが実現する日も、案外遠くはないかもしれません」(鳥居さん)
Copyright © ITmedia, Inc. All Rights Reserved.