話した言葉が自動でテキスト化され、メールの本文として入力される――。5月13日、東京ビッグサイトで開幕した第12回 組込みシステム開発技術展(ESEC)のATR-Trekブースで、こんな技術が披露された。
ブースにはデモ用にマイクを装備した「WILLCOM D4」が用意され、説明員がマイクに向かって話すと、話した言葉がテキスト化され、画面に自動で入力される様子を見ることができる。
「きゅうにざんぎょうになりました。ばんごはんはいらないよ」と声を発してから、ワンテンポおいたくらいのタイミングで、D4のメール画面上に「急に残業になりました。晩ご飯は要らないよ。」と表示されるなど、表示までにかかる時間は実用上問題ないレベル。1つの文章を読み上げてから認識や変換、入力の一連の処理を行うのではなく、読み上げるそばから実行するため、ストレスなく利用できそうだ。
音声がテキストとして入力されるまでのフローはどうなっているのだろうか。
マイクを通じて入力された音声は、まず携帯端末側で音声を認識するのに必要な特徴量のみを抽出してデータを軽くした上で、音声認識サーバに送信される。サーバ側では受け取ったデータをテキスト化し、かな漢字変換を行って端末側にテキストデータとして送り返する。
ユニークなのは、端末内のアドレス帳や送受信メールなどのデータを固有名詞の認識結果として利用する点だ。例えば、サーバ側での認識が困難な珍しい名字などは、端末側に戻す際に一時的にカタカナで表記し、アドレス帳データを元にした端末内辞書と照合する。ここで合致する固有名詞があれば反映させ、認識結果として表示する仕組みだ。これは、ローカル型音声認識(LSR)と分散型音声認識(DSR)のハイブリッド型音声システムで実現しており、同社によれば実用化されたのは世界初だという。
標準的な話し言葉だけでなく、くだけた話言葉も認識できるなど、すでに商用化レベルの仕上がりだと説明員。なお、この技術は、ブラウザ検索のキーワード入力にも利用できるとしている。
「しゃべって翻訳」の技術を応用
ATR-Trekは、905iシリーズに搭載された「しゃべって翻訳」を手がけたことで知られる企業だ。しゃべって翻訳は、ケータイアプリを起動し、マイクに向かって日本語のフレーズを話すと翻訳結果が英語(などの外国語)で表示され、外国語を話すと日本語の翻訳結果が表示されるサービス。国際電気通信礎技術研究所(ATR)の音声認識と翻訳技術を、フュートレックの組み込み技術の組み合わせで実現している。
今回、同社がデモを行っている音声メール入力システムは、このしゃべって翻訳のシステムを応用したものだという。
Copyright © ITmedia, Inc. All Rights Reserved.