News 2002年7月12日 09:52 PM 更新

人間の声にもっと近く――スピーチワークスが音声合成の新製品

ロボット声のような音声合成はもういらない? スピーチワークスが発売した音声合成システム「Speechify 2.1日本語版」では、「人間が話しているのとほとんど変わらない韻律で音声合成が可能になった」という

 音声認識・合成システムベンダーのスピーチワークスは7月11日、ネットワークサービス向け音声合成システムの新製品として「Speechify 2.1日本語版」の販売を開始した。Speechifyは文字情報を話し言葉に変換する音声合成(TTS)エンジン。「人間が話しているのとほとんど変わらない韻律で音声合成を可能にした」(スピーチワークス)のが特徴だ。

 Speechify 2.1は、数十時間かけてボイスタレントの声をサンプリング。その声を音素として登録するとともに、話し方のリズムやイントネーションも取り込むことで、出力したときに自然な話し方に聞こえるようにしたという。既にリリースされている英語版は、米Yahoo!や米AOLの電子メールリーディングサービスで採用された実績がある。

「従来は、ボイスタレントの音素データベースを使わず、音声フィルタを通して出力していただけなので、ロボットの話し声のようにしか聞こえなかった」(スピーチワークス)。なお、日本語版の開発にあたっては、「キミコ」さんという京都出身の女性の声が使われている。「京都の女性は非常にフラットなイントネーションで話すため、TTSには向いている。実際、音声を録音したものと、Speechifyで合成したものと聞き比べても、ほとんど違いがわからない」(同社)。なお、Speechifyで音声合成したものは、米SpeechWorksのWebサイトにあるデモシステムで試してみることが可能だ(現在は英語版のみ)。

 スピーチワークスでは、このSpeechify 2.1と自動音声認識システム「SpeechWorks 6.5SE」を組み合わせて統合的な音声認識・合成ソリューションを提供する。SpeechWorksは、コールセンターやボイスポータル向けの音声認識システムで、自己学習機能や自然言語理解といった機能を備えている。「ほかの音声認識・合成システムを提供している企業は、認識か合成かどちらかしか自社の技術として持っていない。われわれは、認識・合成の両方を自社で開発しているため、精度が非常に高くなっている」(同社)。

 例えば、韓国では、この音声認識・合成システムを利用したアイドルグループのボイスポータルが存在する。「このグループのファンからの電話が、1日に2万件以上ある。音声合成だと知っていても、本物に非常によく似ているので、実際に話している気分になれる」(スピーチワークス)。なお同社によれば、既に国内でも大手銀行がカタログ請求用にこのシステムの導入を決めているという。

 さらにスピーチワークスでは、組み込み用の音声合成エンジン「Speechify Solo」ならびに音声認識エンジン「Speech2Go」の開発も行っており、将来的にはテレマティクスやエンターテインメントロボット向けに販売を行っていく計画だ。「組み込み向けには、システム全体のサイズを抑えなければならない。辞書ファイル(日本語版のSpeechWorksで約300Mバイト)をどうやって圧縮するかが課題となっている」(同社)。

関連リンク
▼ スピーチワークス

[中村琢磨, ITmedia]

Copyright © ITmedia, Inc. All Rights Reserved.