読みとアクセントの答え合わせは音声辞書との比較で可能だが、最終的に音声を合成する波形処理のレベルになると、耳を頼りに「自然な音声」を仕上げていくしかない。鳥居マネージャーによると、音質の良さはあまり重要ではなく、「読み間違えやイントネーションの誤りが、全体的な悪印象につながる傾向がある」という。
しかし、新語や流行語は日々生まれており、既存の辞書データにないものは正しく読んだり、発声できなかったりする場合がある。今の音声合成の技術では、プロのアナウンサーのように、未知の言葉に出会ったときに柔軟に対応できない。
そのため、今の技術でミスのない自然な音声合成を実現するには、事前のテキスト確認や専門家によるチューニングが必須。「その作業が自動化できれば手離れのいいシステムになるが、今はクオリティーの高い音声合成を作るのに手作業が欠かせない」(鳥居マネージャー)
これまでの音声合成は、単なるガイダンスやナレーションなど情報提供を目的に活用されることが多かった。天気予報や交通情報、株価情報といった単調なニュースの読み上げは今の音声合成技術でも十分置き換えられるだろう。
先述したように、笑い声や叫び声、未知の言葉、抑揚や感情などのあるテキスト読み上げにはまだ課題が残る。では、現在の技術で、どこまでのことが実現できるのか。
鳥居マネージャーによると、最近は地方のテレビ局やラジオ局のアナウンサーの仕事を音声合成でサポートする需要の他、声優やアイドルなどの声を再現するエンターテインメント需要が増えているという。
「アナウンサーにクリエイティブな業務に専念させ、働き方改革の取り組みとして深夜業務になる可能性がある地震速報などの緊急情報を機械で代替したいという需要はある。また、声優さんの音声データがあれば、サービスに応じて好きな声優さんの声を聞けるようになるかもしれない。癒やし系の声をVR(仮想現実)と組み合わせたり、ロボットに相談役になってもらったりという可能性もあるだろう。声優事務所からはビジネスを拡大できる手段として、前向きに音声合成を活用したいという話をいただいている」(鳥居マネージャー)
今の音声合成は、アナウンサーや声優の仕事を奪うものというより、むしろそれらの仕事を拡張・サポートするものになっているようだ。鳥居マネージャーは「声優が小説を読んだり、AIアナウンサーがいろんな種類のニュースを読んだりといったことは実現できるだろう。技術やコスト面での課題はあるが、漫才や方言なども音声合成で再現できるかもしれない。音声合成自体の元になるのは人の声なので、その声の持つ価値や質が今後より問われるのではないか」と展望を語った。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR