連載
» 2018年02月16日 08時00分 公開

週末エンプラこぼれ話:ディープラーニングで急激に進化――意外と奥が深い「音声合成」の世界 (1/2)

自動音声案内をはじめとして、スマートスピーカーなどでも使われる人工的な「音声合成」。その研究は50年以上もの長い歴史があるが、最近は機械学習によって、急速な進化を遂げているのだという。

[池田憲弘,ITmedia]
photo 最近話題のスマートスピーカー。それを支える「音声合成」技術はご存じですか?

 昨今、Amazon EchoやGoogle Homeの影響もあり、機械による文章の読み上げ機能が注目されている。長い文章を読んだり、短い受け答えをしたり、スマートスピーカーやパーソナルアシスタントアプリでなくとも、電話や金融機関などでの自動音声による案内など、コンピュータによる音声合成は、現代人にとって欠かせない技術となっている。

 日常生活に溶け込んでいるため、普段はあまり意識しない技術ではあるが、その歴史は古く、50年以上前から研究開発がされてきた。これまでも、数々の技術革新に支えられながら進化しており、最近では、機械学習の登場によって飛躍的な進化を遂げているのだという。

「音声合成」の進化と大きな課題

 音声合成とはコンピュータ上で文字を音声に変換する作業だ。フリーのテキスト読み上げソフトなどを試せば分かるが、平仮名を並べて読み上げさせても、イントネーションがおかしく、機械らしい棒読みになるだけで、当然、自然な会話の発音にはならない。

 自然な読み方を実現するには、各文字が、名詞なのか助詞なのかといった解析から始まり、アクセントを付与したり、文節や間(ブレス)がどこに必要かといったことも判定したりする。そして、声の高低や話すスピードといったデータを組み合わせて、初めて音声信号(波形)が合成されるのだ。

photo NTTテクノクロス メディアイノベーション事業部 第二カンパニー 営業担当/音声メディア担当 鳥居崇さん

 NTTテクノクロスで、音声合成サービスを開発している鳥居さんによれば、時代によって音声合成へのニーズや開発方針が変わってきたのだという。

 「NTTグループは電話会社として、1970年代から音声合成の研究と開発をしてきました。電話における自動音声サービスなどを目的としていたため、当初は明瞭さを高めることが目標でしたが、1990年代以降は徐々に肉声感が求められるようになりました。肉声感を得る方法として、2000年以降は、録音した音声の断片を連結して合成する『波形接続方式』が一般的になりましたが、声のバリエーションを増やすのに、コストが膨らむのが大きな課題でした」(NTTテクノクロス メディアイノベーション事業部 鳥居崇さん)

 波形接続方式では、音声を音節ごとに分けたり、音の境界を見分けたりして、要素ごとに分割してデータベースを作成する。その後、最適な音の組み合わせを導くアルゴリズムにより、音を探し出して結合し、音声波形にする。これによって、肉声に近い自然な音声を合成できるのだが、膨大な音声情報が必要になるほか、データベースの作成には専門家が必要だった。

 電話におけるガイダンスなど、発話のパターンが少なければいいが、「場合によっては録音だけで20時間以上かかり、製作費が数千万円単位になるケースもあった」(鳥居さん)そうだ。

 その後、スマートフォンの普及とともに、アプリケーションやロボットなどに合成音声が使われるようになり「多様性」が求められるようになった。そして2010年以降、音声合成に機械学習が取り入れられるようになっていく。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ

マーケット解説

- PR -