進化を続けるモバイル向けUIの最前線──シリコンバレーで見た未来(前編)(3/3 ページ)

» 2009年02月13日 09時00分 公開
[小林雅一(KDDI総研),ITmedia]
前のページへ 1|2|3       

賛否両論ある音声入力方式の実力

 モバイル端末の新たな入力手段として、ペン入力以上の期待を集めているのが、「音声入力」であろう。人間が発する言葉で機械を操る音声入力は、極めて自然でエレガントな操作方法として、長年にわたって研究開発が進められてきた。しかしこれまでのところ、一般への普及はそれほど進んでいない。現時点で音声入力は、自動車のナビゲーションなど一部の領域においては実用化されているが、PCやケータイのような汎用情報機器では、ごく一部のアプリケーションを除いて、まだ広く使われているとは言えない状況だ。

 その理由としては、「音声認識の精度が不十分であること」「あらかじめユーザーの声に合わせる、スピーチ・トレーニングが必要なこと」など、技術的な要因が1つある。しかしそれ以上に、「人前で(ケータイのような)機械に向かって、ぶつぶつ話しかけるのは気が引ける」という、一種の社会的・心理的な要因も大きく作用しているだろう。

 もっとも一部の専門家からは、これに対する反論も聞かれる。UIに詳しい、千葉工業大学の山崎和彦教授は「音声認識の精度は、アプリケーションを絞り込んでうまくチューニングすれば、今でも十分使えるレベルに到達している。また心理的な抵抗は、音声入力が便利と認識されれば、いずれ消えてなくなるだろう。例えばApple(のようなトレンド・セッター)が音声入力を導入すれば、むしろそれがカッコいいいとみなされ、あっという間に普及するのではないか」と予想する。

Photo 音声での入力をサポートしたGoogle Mobile Appの検索機能

 実際Googleは、iPhone向けのアプリとして、音声でWeb検索ができる「Voice Search」機能を搭載した「Google Mobile App」をリリースした。iPhoneを耳に当てると、モーションセンサーでそれを感知し、自動的に音声入力モードへと切り替わる(つまり周囲の人達からは、携帯電話で通話しているように見える)。

 対応言語は今のところ英語のみだが、認識の精度はかなり高く、複数の単語からなる文節にも対応できる。事前のスピーチ・トレーニングは不要だ。ただし認識処理が完了するまでに数秒かかるため、若干イライラする。また雑踏など騒々しい場所では、認識精度が著しく低下する。これらの問題を抱えているとは言え、検索最大手のGoogleが音声入力を導入したことは、その普及に弾みがつく上で一里塚になるとみられている。

 さらに検索キーワードのような単語や短い分節のみならず、SMSやメールのように長い文章さえも、ケータイから音声入力する技術が開発されつつある。その一例として、米Promptuによるデモをご覧いただこう。同社は、1960年代にダグラス・エンゲルバート氏がマウスを発明したことで知られる、SRI Internationalからスピンアウトして生まれた企業だ。従って彼らの音声認識技術は、もともとSRI Internationalで開発されたものである。

 映像の中でデモをしている男性が使っているのは、米国で一般的に使われている携帯電話だ。そのディスプレイの様子が、プロジェクターで前面のスクリーンに映し出されている。男性が携帯電話に向かって新聞記事を読むと、それが音声認識ソフトによって処理され、読み上げた文章がディスプレイ(スクリーン)に表示される、という流れだ。


 デモの様子から読み取れることは次の2点だ。

  1. 音声認識の精度にはバラつきがある
  2. 処理速度はかなり遅い

 まず 1.に関してだが、3つの文章を読み上げた中で、最初の2つは正確に認識し、最後の文章では2カ所間違えていた。これをどう見るかは使う目的や状況次第だが、何らかの修正手段は必要だろう。ただ「スピーチ・トレーニングに要する時間が短い」という点は特筆に値する。これまで、例えば市販されているPC向けの音声認識ソフトを使うには、ユーザーが自らの声質や話し方にソフトを適合させるため、30分から1時間ほど所定の例文を読み上げる必要があった。これに対しPromptuの音声認識システムでは、そのようなスピーチ・トレーニングが5分程度で使い始めることができる。その後は使えば使うほど、システムがユーザーの話し方に適応するので、認識精度はどんどん高まるという。

 次に 2.の理由だが、これはPromptuのシステムがサーバ・クライアント方式で情報処理を行っているからだ。つまり音声認識のソフトは携帯端末ではなく、通信回線で接続されたサーバにインストールされている。従って多数の要求がサーバや通信回線に集中すれば、その分だけ処理は遅くなる。

 前述したGoogleのVoice Searchも同じくサーバ・クライアント方式だが、この方式に対しては「反応が遅い(遅延時間)」という短所がある一方で、いわゆる集合知による長所も指摘されている。すなわち数多くのユーザーが使い込むことによって、サーバ上の音声認識ソフトがさまざまな情報や事例を学習し、結果的に処理能力や精度が高まる、とする考え方である。また遅延の問題については、2010年頃に立ち上がる予定の次世代通信規格「LTE(Long Term Evolution)」で最大で下り100Mbps、上り50Mbpsの通信速度が実現される見込みなので、これによってかなり改善されるだろう。

マルチ・モーダルへ向かう動き

 以上のように、iPhoneを端緒にして、さまざまなUIの要素技術がモバイル端末に導入されようとしている。これらを有機的に統合するのが、「マルチ・モーダル(multi modal)」と呼ばれる設計思想だ。これはユーザーの置かれた場所、環境、状況に応じて、「タッチパネル」「音声認識」「手書き入力」など異なるUIのモード(方式)を提供するという考え方である。さらに各種センサー(モーション、光、温度など)をそれに組み合わせることで、自動的にUIモードを切り替えたり、異なるモード間の連携を可能にする。

Photo Appleが出願している「Multitouch data fusion」という特許に添付されている図(出展:US Patent & Trademark Office)

 そこに向かう動きはすでに見受けられる。例えばAppleが米特許商標庁に出願した、「Multitouch data fusion」という特許がそれだ。ここではさまざまなUI要素技術が緊密に連携し、極めて自然でスムーズなUIが実現される。例えばユーザーがタッチパネル上に表示された図形を2本の指で拡大した後、「青く塗れ」と命令すると、音声認識ソフトがこの命令を理解し、この図形の色が青に変化する。あるいはユーザーが見つめる図形を視線捕捉センサー(Eye Tracking Sensor)で認識し、そこに向かって「拡大」と命令すればサイズが大きくなる、といった具合だ。

 つまり多様なUIの手段を導入することによって、情報処理の対象や範囲が飛躍的に拡大する。その先にあるのは、「人間の活動を中心とした情報処理(Activity Based Computing)」と呼ばれ、新たなUIの方向性として研究・開発が始まっている。後編では、こうした新たな研究の模様から紹介する。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー

2024年