メディア

進化を続けるモバイル向けUIの最前線──シリコンバレーで見た未来（前編）（3/3 ページ）

» 2009年02月13日 09時00分公開

[小林雅一（KDDI総研），ITmedia]

賛否両論ある音声入力方式の実力

　モバイル端末の新たな入力手段として、ペン入力以上の期待を集めているのが、「音声入力」であろう。人間が発する言葉で機械を操る音声入力は、極めて自然でエレガントな操作方法として、長年にわたって研究開発が進められてきた。しかしこれまでのところ、一般への普及はそれほど進んでいない。現時点で音声入力は、自動車のナビゲーションなど一部の領域においては実用化されているが、PCやケータイのような汎用情報機器では、ごく一部のアプリケーションを除いて、まだ広く使われているとは言えない状況だ。

　その理由としては、「音声認識の精度が不十分であること」「あらかじめユーザーの声に合わせる、スピーチ・トレーニングが必要なこと」など、技術的な要因が1つある。しかしそれ以上に、「人前で（ケータイのような）機械に向かって、ぶつぶつ話しかけるのは気が引ける」という、一種の社会的・心理的な要因も大きく作用しているだろう。

　もっとも一部の専門家からは、これに対する反論も聞かれる。UIに詳しい、千葉工業大学の山崎和彦教授は「音声認識の精度は、アプリケーションを絞り込んでうまくチューニングすれば、今でも十分使えるレベルに到達している。また心理的な抵抗は、音声入力が便利と認識されれば、いずれ消えてなくなるだろう。例えばApple（のようなトレンド・セッター）が音声入力を導入すれば、むしろそれがカッコいいいとみなされ、あっという間に普及するのではないか」と予想する。

音声での入力をサポートしたGoogle Mobile Appの検索機能

　実際Googleは、iPhone向けのアプリとして、音声でWeb検索ができる「Voice Search」機能を搭載した「Google Mobile App」をリリースした。iPhoneを耳に当てると、モーションセンサーでそれを感知し、自動的に音声入力モードへと切り替わる（つまり周囲の人達からは、携帯電話で通話しているように見える）。

　対応言語は今のところ英語のみだが、認識の精度はかなり高く、複数の単語からなる文節にも対応できる。事前のスピーチ・トレーニングは不要だ。ただし認識処理が完了するまでに数秒かかるため、若干イライラする。また雑踏など騒々しい場所では、認識精度が著しく低下する。これらの問題を抱えているとは言え、検索最大手のGoogleが音声入力を導入したことは、その普及に弾みがつく上で一里塚になるとみられている。

　さらに検索キーワードのような単語や短い分節のみならず、SMSやメールのように長い文章さえも、ケータイから音声入力する技術が開発されつつある。その一例として、米Promptuによるデモをご覧いただこう。同社は、1960年代にダグラス・エンゲルバート氏がマウスを発明したことで知られる、SRI Internationalからスピンアウトして生まれた企業だ。従って彼らの音声認識技術は、もともとSRI Internationalで開発されたものである。

　映像の中でデモをしている男性が使っているのは、米国で一般的に使われている携帯電話だ。そのディスプレイの様子が、プロジェクターで前面のスクリーンに映し出されている。男性が携帯電話に向かって新聞記事を読むと、それが音声認識ソフトによって処理され、読み上げた文章がディスプレイ（スクリーン）に表示される、という流れだ。

　デモの様子から読み取れることは次の2点だ。

音声認識の精度にはバラつきがある
処理速度はかなり遅い

　まず 1．に関してだが、3つの文章を読み上げた中で、最初の2つは正確に認識し、最後の文章では2カ所間違えていた。これをどう見るかは使う目的や状況次第だが、何らかの修正手段は必要だろう。ただ「スピーチ・トレーニングに要する時間が短い」という点は特筆に値する。これまで、例えば市販されているPC向けの音声認識ソフトを使うには、ユーザーが自らの声質や話し方にソフトを適合させるため、30分から1時間ほど所定の例文を読み上げる必要があった。これに対しPromptuの音声認識システムでは、そのようなスピーチ・トレーニングが5分程度で使い始めることができる。その後は使えば使うほど、システムがユーザーの話し方に適応するので、認識精度はどんどん高まるという。

　次に 2．の理由だが、これはPromptuのシステムがサーバ・クライアント方式で情報処理を行っているからだ。つまり音声認識のソフトは携帯端末ではなく、通信回線で接続されたサーバにインストールされている。従って多数の要求がサーバや通信回線に集中すれば、その分だけ処理は遅くなる。

　前述したGoogleのVoice Searchも同じくサーバ・クライアント方式だが、この方式に対しては「反応が遅い（遅延時間）」という短所がある一方で、いわゆる集合知による長所も指摘されている。すなわち数多くのユーザーが使い込むことによって、サーバ上の音声認識ソフトがさまざまな情報や事例を学習し、結果的に処理能力や精度が高まる、とする考え方である。また遅延の問題については、2010年頃に立ち上がる予定の次世代通信規格「LTE（Long Term Evolution）」で最大で下り100Mbps、上り50Mbpsの通信速度が実現される見込みなので、これによってかなり改善されるだろう。

マルチ・モーダルへ向かう動き

　以上のように、iPhoneを端緒にして、さまざまなUIの要素技術がモバイル端末に導入されようとしている。これらを有機的に統合するのが、「マルチ・モーダル（multi modal）」と呼ばれる設計思想だ。これはユーザーの置かれた場所、環境、状況に応じて、「タッチパネル」「音声認識」「手書き入力」など異なるUIのモード（方式）を提供するという考え方である。さらに各種センサー（モーション、光、温度など）をそれに組み合わせることで、自動的にUIモードを切り替えたり、異なるモード間の連携を可能にする。

Appleが出願している「Multitouch data fusion」という特許に添付されている図（出展：US Patent & Trademark Office）

　そこに向かう動きはすでに見受けられる。例えばAppleが米特許商標庁に出願した、「Multitouch data fusion」という特許がそれだ。ここではさまざまなUI要素技術が緊密に連携し、極めて自然でスムーズなUIが実現される。例えばユーザーがタッチパネル上に表示された図形を2本の指で拡大した後、「青く塗れ」と命令すると、音声認識ソフトがこの命令を理解し、この図形の色が青に変化する。あるいはユーザーが見つめる図形を視線捕捉センサー（Eye Tracking Sensor）で認識し、そこに向かって「拡大」と命令すればサイズが大きくなる、といった具合だ。

　つまり多様なUIの手段を導入することによって、情報処理の対象や範囲が飛躍的に拡大する。その先にあるのは、「人間の活動を中心とした情報処理（Activity Based Computing）」と呼ばれ、新たなUIの方向性として研究・開発が始まっている。後編では、こうした新たな研究の模様から紹介する。

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2026年

2025年

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。