au「声de入力」は、今までの音声認識とどこが違う?

» 2006年01月12日 20時18分 公開
[吉岡綾乃,ITmedia]

 KDDIが発表した新サービス「声de入力」(1月12日の記事参照)は、ナビの地名入力や乗換案内の駅名入力といった操作を、キーではなく音声で可能にしたものだ。

 しかし携帯電話で音声認識を利用した製品やサービスはこれが初めてではない。従来の音声認識技術と声de入力はどこが違うのか、またKDDIの狙いなどについてまとめた。

キーが苦手な人には「声」で入力してほしい

 「携帯電話は単なる通話の道具ではなく、個人の情報ツールになってきているが、キー入力が困難という声がある」と話すのは、au商品企画本部モバイルサービス部の幡容子氏だ。

 メールやWeb検索、ナビ、アドレス帳など、携帯の機能が多様化していく中で、キーによる文字入力が必須なために、そこが利用のハードルになってしまっているケースは多い。「初心に返って、より多くの人により簡単に機能を使ってもらいたいと考えた」(幡氏)。また、ビジネスマンが“歩きながら”“待ちながら”EZナビウォークを使うシーンも想定しているという。

au商品企画本部モバイルサービス部の幡容子氏

 これまでの携帯電話にも、音声認識技術を利用している製品はある。例えば、電話帳に登録した電話番号や、メニューの呼び出しなどを単語で呼び出せる機能を持ったものなどだ(2002年9月10日の記事参照)

 ただ、これらのケースでは、単語を認識しているだけだ。声de入力の場合は「東京から新宿まで10分後」など、短い文章を認識できるため、その分処理しなくてはならないデータ量も増える。携帯電話の非力な処理能力で自然文認識を可能にしているのが「DSR」という技術だ。

端末とサーバで処理を分散

 携帯電話の文字入力に音声認識技術を使う試みは古くからあり、大きく3つに分けられる。携帯の端末で処理を行う「内蔵型」、音声認識処理はサーバに行わせて、通話回線を利用して問い合わせる「音声通話型」、そして端末とサーバと処理を分散する「分散処理型」だ。

 内蔵型の場合は、通信が発生しないためユーザビリティに優れるが、半面、端末の処理能力が高くないこと、また辞書のサイズを大きくできないという理由から、数十単語しか認識できないという問題があった。

 音声通話型の場合、処理能力の高いサーバ側で音声認識処理を行うため、大容量の辞書を登録でき、認識率も上げやすいが、ユーザーが音声認識をしようとするたびに、音声認識用のアプリと音声回線を切り替え、通信を行わなくてはならない。何度も通信が発生し通信料・時間がかかること、何度も切り替えが必要でユーザーにとって使いにくいなど、ユーザビリティの面で問題があった。

 声de入力では、端末とサーバとで処理を分担する分散型音声認識機能(DSR:Distributed Speech Recognition)を採用している。「Symbian OSやWindows MobileといったOSを載せたスマートフォン以外で、DSRを実現したのは世界初」(幡氏)。

内蔵型、音声通話型、DSRのそれぞれの特徴

 具体的には、ユーザーが発声した内容の音声特徴をパラメータとして抽出するまでを端末側で行い、そのデータをパケット通信でサーバへ送信する。サーバ側では、送られてきたパラメータを辞書と照合して、認識結果をパケット通信で端末に送る仕組みになっている。

 DSRでは、内蔵型に近いユーザビリティと、音声通話型並みの認識率を両立でき、しかも通信の回数も音声通話型に対して少なくできる。内蔵型と音声通話型の“いいとこ取り”ができる方法だが、これまで携帯電話への実装は難しかったという。「周囲の雑音の除去など、周辺技術の向上によって実現できた」(幡氏)

 声de入力では、屋外など雑音がうるさいところでも、認識率を下げないよう、2種類の音声認識エンジンを持っているという。音声認識を開始する前に周囲の雑音を検出し、その雑音レベルに合わせ「雑音に強いエンジン」「高速に処理できるエンジン」を自動的に切り替える仕組みだ。

声de入力の特徴

 音声認識用のチップは追加搭載していないが、特徴パラメータの抽出、計算はBREWアプリではなく、端末上のソフトウェアで行うため、このソフトが搭載されていない現行機種では声de入力を利用することはできない。

 端末が抽出する音声特徴データは、乗換案内の場合でほぼ1K〜2Kバイト、多い場合で3Kバイト程度だという。「CDMA 1Xのパケット割を適用した場合で、1回3〜4円程度」(KDDI)

他のアプリケーションへの展開は?

 声de入力のベースとなっているのは、KDDI研究所が研究開発した音声特徴情報抽出ソフトウェア・音声認識エンジンだ。同研究所の音声認識技術研究の歴史は古く、「『ア』とか『イ』とかの認識から始まって、30年くらいはやっている」(KDDI研究所音声処理グループリーダーの河井恒氏)

 KDDIが自然文の音声認識を利用したサービスを提供するのは、実はこれが初めてではない。沖電気と共同開発した「ITS音声ポータルサービス」(2001年7月2日の記事参照)や、「ezバーチャルトーク」というサービスを提供していたこともある(2001年8月23日の記事参照)

 今回のサービスで、声de入力を乗換検索や目的地検索と組み合わせている大きな理由は、必要な単語を地名や時間、住所などに絞りこめるため、“ユーザーが発声する場合にどのような言葉が必要で、どのような結果を返す必要があるか”を想定しやすく、認識率を上げやすいためだ。

 音声認識技術を利用したアプリを作り、認識率を上げるには、想定される言葉を的確に集めたデータベースサーバを構築しなくてはならない。サーバには、全国の駅名のほか、EZナビウォークで随時利用されているキーワードのうち、上位1万件の単語が登録されている。認識が失敗した場合のデータを蓄積・学習する機能は備えていない。「現在の(EZナビウォークの)利用状況から見て、1万件で足りるという認識。2カ月に1回くらいの更新頻度になるのではないか。今後1万件(のキーワード)を入れ替えていってもいいし、増やすことも可能。状況を見て対応する」(KDDI)

 EZナビウォーク以外のアプリケーションへの展開も想定している。「『今から音声認識開始』→『認識開始』→『音声認識終了』という部分のAPIは、BREWアプリから利用できるものになっている。ただ、APIを公開するかどうかは決まっていない」(KDDI)

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年04月30日 更新
  1. 「iPhone 17e」と「iPhone 17」どちらが買いか? 2機種を使い込んで分かった“スペック表にない違い” (2026年04月29日)
  2. 「PayPayカード ゴールド」の特典変更は改悪? 損益分岐点を計算、年間100万〜220万円利用ならお得に (2026年04月28日)
  3. 相互交換が始まった「PayPayポイント」と「Vポイント」のお得な活用法 6月の“ルール変更”にも要注意 (2026年04月28日)
  4. ソフトバンクが「今回もやる」とGalaxy S26を月額1円で販売――販売方法を早急に見直さないと撤退を迫られるメーカーも (2026年03月08日)
  5. ダイソーで550円の「スマートフォン ワンハンドシャッター」はカメラ撮影に役立つ? 「ボタンを押すだけ」がポイント (2026年04月29日)
  6. 携帯電話のホッピング問題、「6カ月以内の継続利用を認める」方向で決着か 2026年夏に結論 (2026年04月23日)
  7. 「Fitbit Inspire 3」が10%オフ 最適な睡眠をサポートするスマートアラーム搭載 (2026年04月29日)
  8. 修理費で13万円超えも 折りたたみスマホに「端末保険」が事実上必須といえる理由 (2026年04月27日)
  9. 血圧を測定できるスマートウォッチ「HUAWEI WATCH D2 ウェアラブル血圧計」 17%オフで約5万円に (2026年04月27日)
  10. 「iPhone 17e」と「iPhone 17」は何が違う? 3万円の価格差をスペックから検証する (2026年03月10日)
最新トピックスPR

過去記事カレンダー

2026年