メディア

ディープラーニングで急激に進化――意外と奥が深い「音声合成」の世界：週末エンプラこぼれ話（1/2 ページ）

自動音声案内をはじめとして、スマートスピーカーなどでも使われる人工的な「音声合成」。その研究は50年以上もの長い歴史があるが、最近は機械学習によって、急速な進化を遂げているのだという。

» 2018年02月16日 08時00分公開

最近話題のスマートスピーカー。それを支える「音声合成」技術はご存じですか？

　昨今、Amazon EchoやGoogle Homeの影響もあり、機械による文章の読み上げ機能が注目されている。長い文章を読んだり、短い受け答えをしたり、スマートスピーカーやパーソナルアシスタントアプリでなくとも、電話や金融機関などでの自動音声による案内など、コンピュータによる音声合成は、現代人にとって欠かせない技術となっている。

　日常生活に溶け込んでいるため、普段はあまり意識しない技術ではあるが、その歴史は古く、50年以上前から研究開発がされてきた。これまでも、数々の技術革新に支えられながら進化しており、最近では、機械学習の登場によって飛躍的な進化を遂げているのだという。

「音声合成」の進化と大きな課題

　音声合成とはコンピュータ上で文字を音声に変換する作業だ。フリーのテキスト読み上げソフトなどを試せば分かるが、平仮名を並べて読み上げさせても、イントネーションがおかしく、機械らしい棒読みになるだけで、当然、自然な会話の発音にはならない。

　自然な読み方を実現するには、各文字が、名詞なのか助詞なのかといった解析から始まり、アクセントを付与したり、文節や間（ブレス）がどこに必要かといったことも判定したりする。そして、声の高低や話すスピードといったデータを組み合わせて、初めて音声信号（波形）が合成されるのだ。

NTTテクノクロスメディアイノベーション事業部第二カンパニー営業担当／音声メディア担当鳥居崇さん

　NTTテクノクロスで、音声合成サービスを開発している鳥居さんによれば、時代によって音声合成へのニーズや開発方針が変わってきたのだという。

　「NTTグループは電話会社として、1970年代から音声合成の研究と開発をしてきました。電話における自動音声サービスなどを目的としていたため、当初は明瞭さを高めることが目標でしたが、1990年代以降は徐々に肉声感が求められるようになりました。肉声感を得る方法として、2000年以降は、録音した音声の断片を連結して合成する『波形接続方式』が一般的になりましたが、声のバリエーションを増やすのに、コストが膨らむのが大きな課題でした」（NTTテクノクロスメディアイノベーション事業部鳥居崇さん）

　波形接続方式では、音声を音節ごとに分けたり、音の境界を見分けたりして、要素ごとに分割してデータベースを作成する。その後、最適な音の組み合わせを導くアルゴリズムにより、音を探し出して結合し、音声波形にする。これによって、肉声に近い自然な音声を合成できるのだが、膨大な音声情報が必要になるほか、データベースの作成には専門家が必要だった。

　電話におけるガイダンスなど、発話のパターンが少なければいいが、「場合によっては録音だけで20時間以上かかり、製作費が数千万円単位になるケースもあった」（鳥居さん）そうだ。

　その後、スマートフォンの普及とともに、アプリケーションやロボットなどに合成音声が使われるようになり「多様性」が求められるようになった。そして2010年以降、音声合成に機械学習が取り入れられるようになっていく。

機械学習で音声合成のコストは下がったものの……

　　　　　　 1|2 次のページへ