ニュース
» 2006年01月12日 17時55分 UPDATE

地名や乗換を声で入力・検索「声de入力」の実力は?

「東京から新宿まで10分後」など自然な文章を発声すれば、EZナビウォークを声で操作できる「声de入力」。発表会会場で気になる実力をチェックした。【実動動画を最後に収録】

[吉岡綾乃,ITmedia]

 1月12日、KDDIは乗換案内や目的地検索の地名を、音声で入力できるサービス「声de入力」を発表した(1月12日の記事参照)。同社が提供している歩行者向けナビサービス「EZナビウォーク」のメニューのうち、「乗換検索」と「目的地検索」の入力で声de入力を利用できる。

 2006年2月以降発売のEZナビウォーク対応端末で利用でき、現行機種でのサービス提供はされない。同日に発表された「A5518SA」「Sweets pure」「A5520SA」(1月12日の記事参照)は対応機種となる。

「東京駅から新宿駅まで10分後に」「日比谷のコンビニ」で検索できる

 EZナビウォークでは歩行者ナビだけでなく、乗換検索や道路情報などさまざまな情報を提供している。今回声de入力に対応するのは、ナビの目的地を音声入力できる「声で目的地検索」と、鉄道の乗換案内で必要な駅名や時間などの条件を音声入力できる「声で乗換検索」の2つだ。

 声で目的地検索は、目的地(店名/施設名/駅名/空港名)、電話番号、住所などを入力して目的地を検索するもの。略語も一部登録されており、例えば「コンビニエンスストア」と「コンビニ」のどちらでも検索できる。「××(地名)の○○(施設名)」という入力にも対応しており、「日比谷のコンビニ」といった周辺検索ができるのも特徴だ。

ay_koe04.jpg 左から順に、「声で目的地検索」のメニュー画面/「日比谷のコンビニ」という検索の仕方の場合は「店名/施設名を探す」を選択/音声の特徴を抽出、サーバに問い合わせる間通信が発生する/「日比谷」が「入谷」になってしまった例。検索結果が正しくなかったら、キー入力で訂正するか、音声で再入力する

 声で乗換検索では、出発駅、到着駅、日時を声で入力できる。「東京駅から新宿駅まで10分後に到着(出発)」といった検索が可能だ。日時を数字で指定せず、「明日」「今日」といった入力もできるようになっている。また、出発/到着を指定しなかった場合は、「出発」と見なして検索する。

ay_koe05.jpg 「声で乗換検索」の例。この画面が出たら検索したい内容を文章で発声する(左)。検索結果が1つに定まらないときは、類似した結果を複数返す仕組み(右)

気になる精度は?

 会場に置かれていた対応端末で、声で乗換検索/声で目的地検索の両方を試してみた。記者の場合は、声で乗換検索では4分の3くらい、声で目的地検索ではさらにその半分以下の割合で正しく認識していた。

 そこそこ使える印象だが、うまく認識させるにはいくつかコツがある。誤認識した場合の学習機構は用意していないので、人間側が機械に合わせる必要があるのだ。

 音声認識では大きな声で単語を区切りながらはっきり発音するのが基本だが、声de入力の場合は、大声だとむしろ認識率が落ちてしまう。普通に電話で通話する程度の声の大きさ、スピードで発声するのがコツのようだ。端末から離れて大声で話すより、マイクと口元を近付けて小声で話すほうがうまくいく。また、「から」「まで」「の」といった助詞の後ろを軽く区切るだけでも認識率は上がる。

 雑音が多すぎる、認識が始まる前に発声するなどで認識できなかった場合には、端末側がエラーを出す。ただ認識に失敗したとエラーメッセージが出るのではなく、「発声が早すぎます」「声が大きすぎます」「静かなところで発声してください」など、失敗した理由と認識率を上げるためのアドバイスが出るところは分かりやすい。

ay_koe06.jpg 周囲の雑音などを判定し、自動的に音声認識が開始される。このとき発声を始めるのが早すぎるとこのようなエラーが出る(左)、電話で通話する程度の大きさの声がオススメ。大声すぎるとエラーになりやすい(右)

 誤認識した場合には、テンキーでテキスト入力して訂正するか、再度音声で入力する。イントネーションやアクセントの違いは吸収できるが、地名の誤読などは判別が難しいという。

 発声終了から認識結果が返ってくるまでにかかる時間は、10秒弱といったところ。この時間を待つよりキー入力したほうが速いと感じる人もいるだろうし、認識精度に対する満足度も人それぞれだろうが、記者は使ってみたいサービスだという印象を受けた。

 誤認識した場合は、再度音声で入力するよりもキー入力するほうが速いが、それでも初めからキー入力するよりは速い。例えば乗換検索の場合、入力する項目が複数あるため、アプリの入力窓とキー入力画面を何度も切り替えながら入力しなくてはならないが、それを1操作で行える手軽さは魅力的だ。住所のような、かなと数字が混じった入力も楽にできる。

 声de入力の機能は、パケット通信料のみで利用できるが、声で乗換検索を利用するには、EZナビウォークの有料登録が必要。料金は、95円/24時間、210円/月、道路情報や鉄道運行情報も利用できるコースが315円/月となっている。

auの音声認識を映像でチェックする

 発表会場で、KDDIのデモンストレーターに実際に音声認識を試してもらった。EZナビウォークを起動し、メニューから「声で目的地検索」を選択。「住所で探す」を選んで、行きたいところを発声してもらった。

douga.mpgMPEG-1。約3.6Mバイト

 KDDI本社の住所である「東京都千代田区飯田橋3の10の10」と発声してから、約13秒で検索結果が表示された。ちなみに、1回目のトライではミス。異なる結果が表示された。映像は2回目のトライだ。

 映像を見てもらえば分かるとおり、周囲は音声認識を試す報道陣で溢れており、とてもうるさい環境。そんななかで、2回試してうまくいったのは音声認識技術としては高性能だろう。ただし一般のユーザーが気軽に利用したくなるかどうかには疑問も残る。

 それよりも気になるのは認識にかかる時間かもしれない。「分析中です」と出ている間、端末は音声の特徴点を抽出している。その後サーバと通信が行われて結果が返ってくるわけだが、最初の分析時間が長い。デモは1X端末で行われたが、CPUはARM9コアを積んだMSM6100。MSM6500を搭載したWIN端末に変わっても、CPUスピードは変わらない。通信部分は短縮されるが、全体にかかる時間は大きくは違わないだろう。

Copyright© 2016 ITmedia, Inc. All Rights Reserved.