本気の音声認識、「声de入力」のこだわり Interview: (2/2 ページ)

» 2006年02月08日 12時55分 公開
[神尾寿,ITmedia]
前のページへ 1|2       

ユーザビリティがダメなら出さない

 音声認識は実用性がない、実際は使いにくい。そういったネガティブなイメージを払拭するため、声de入力はユーザビリティに強くこだわった。

 「ユーザビリティがダメなら、(声de入力そのものが)ダメという姿勢で開発に臨みました。ですから、利用方法や操作手順については考えられる限りのケースを想定してテストをしています」(幡氏)

 例えば、音声認識を開始するタイミングについて。声de入力では話し始めのタイミングに画面表示と「ぽーん」という開始音を使うが、ここに至るまでも試行錯誤があったという。

 「最初はHello Messengerのように特定のボタンを押しながら話してもらうという使い方も想定しました。しかし、これだと携帯電話の操作に慣れていない方だと、その最初の段階がわからない可能性があるので見送りました。

 あとですね、『3、2、1、ハイ』という感じに認識開始にカウントダウンする方式も試しました。しかし、(利用調査で)カウントされると話し始めるまでに緊張感が高まって失敗する人が多くて、こちらも採用しなかったという経緯があります」(幡氏)

 ハードウェア的な難しさもあった。今回、声de入力が投入された春商戦向けモデルのうち、W41CAとW41Hはヒンジ部にマイクを実装しているが、これだとマイクの集音特性が変わるためチューニングをし直さなければならなかったという。

 「他にも、終話タイミングの検出や、キーワード発生中に『えーと』という具合に関係ない言葉が混じった時の対応など、商用化に向けてテストと調整を繰り返しました」(幡氏)

次の課題は「辞書の最適化」

 声de入力は始まったばかりのサービスであるが、すでに次の目標に向かって動き出している。その中でも重要視されているのが、辞書の最適化だ。

 「地名や駅名は(辞書で)網羅すればいいのですが、スポット名検索用の辞書が現在の1万件の登録で実際のユーザーニーズにヒットするかという部分をもっと充実させたい。例えば、EZナビウォークはビジネスパーソンの利用者が多いので、会社名でダイレクトに場所が認識できるようにするとか、スポット検索辞書はいくらでも頭が使える部分だと思っています」(幡氏)

 声de入力の認識用ライブラリは、メニュー選択時にサーバー側で使用する辞書を切り替えられる。例えば、駅名検索を選べば駅名辞書、住所検索を選べば住所入力用の辞書という具合である。このため辞書を今後追加し、より綿密な検索を実現することは十分に可能だという。

 「例えば、ビジネス利用向け以外にも、(地域ごとの施設に特化した)地方限定の辞書などを用意することができます。今後、どのような辞書を増やしていくかは、ユーザーニーズを見ながら検討している部分です」(幡氏)

 声de入力やEZナビウォークは、音楽やデザインに比べればコンシューマー向けの「派手さ」はない。しかし、この分野を便利かつ使いやすくするために惜しみなく新技術や開発リソースを投入する姿勢は、ユーザーの満足度に繋がってくる。また将来的に、音声UIやGPS利用でノウハウを蓄積することは、法人向けのモバイルソリューションサービスへの応用が期待できる。

 このような地道な取り組みをしっかりとしているあたりに、最近のKDDIが持つ懐の深さを感じる。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.