スマートフォンがもたらす「音声」の復活Weekly Memo

急速に普及しつつあるスマートフォンの利用技術において、ICTベンダー各社は次なる進化の目玉の1つに「音声」を挙げている。果たしてどういうことか。

» 2011年11月21日 08時25分 公開
[松岡功,ITmedia]

ICTベンダー各社が最新の音声認識技術を披露

 スマートフォンの次なる利用技術の進化が「音声」とはどういうことか。スマートフォンには電話機能があるので、もともと音声での通話は可能だが、ここで取り上げたいのは音声認識技術のことだ。

 まずは先月から今月にかけて、この分野でアナウンスされたICTベンダー各社の新たな動きをピックアップしておこう。

 NECは11月10、11日に東京・有楽町の東京国際フォーラムで開催したプライベートイベント「C&Cユーザーフォーラム & iEXPO2011」で、スマートフォンを活用した音声認識クラウドサービスを参考出展した。

 同サービスは、スマートフォンで入力した音声をデータセンターに送信し、必要な認識処理を行って利用者にフィードバックする仕組みだ。

 NECが「C&Cユーザーフォーラム & iEXPO2011」で参考出展したスマートフォン活用の音声認識クラウドサービス NECが「C&Cユーザーフォーラム & iEXPO2011」で参考出展したスマートフォン活用の音声認識クラウドサービス

 例えば、顧客訪問を続ける営業マンの場合、外出先で活動内容をスマートフォンに話しかけると、営業日報にそのままの内容で文字入力される。これによって、会社に戻ってから日報作成を行う手間を省けるようになる。

 NECはこのデモで、クラウド側で行う音声認識処理の速さや的確ぶりを強調していた。この技術が実用化されれば、バックエンドにあるCRMもさらに進化させることができるだろう。

 同社では、音声認識だけでなく、さまざまな画像認識の技術も組み合わせたクラウドサービスとして、2012年度中には商用化したいとしている。

 富士通もこの分野の研究開発には注力している。富士通研究所が10月13日に開いた最新技術の説明会で披露したのは、音声だけでスマートフォンから欲しい情報を検索・取得できる技術だ。

 検索したい話題を音声で指示するだけで、インターネット上の情報やメール内容などを音声合成で読み上げてくれる仕組みとなっている。これにより、利用者は画面を見て操作する必要がなく、運転中などでも使えるようになる。同所では2012年度中の実用化を目指している。

 この技術については、10月17日掲載の本コラム「ICT最先端を披露した富士通研究所の心意気」でも紹介しているので参照いただきたい。

スティーブ・ジョブズが残した「iPhone進化の次なる芽」

 実は、この分野の話題をぜひとも取り上げたかったのは、先に紹介したNECや富士通の動きもさることながら、次に挙げる2つの動きがスマートフォンの利用技術の進化に向けて、非常にエポックな出来事だと感じたからだ。

 まず1つは、米Appleが10月14日に発売した新型スマートフォン「iPhone 4S」に、音声認識と人工知能(AI)の技術を組み合わせた「Siri」と呼ぶ機能を標準搭載したことだ。

 この新機能、残念ながら現状では日本語に対応していないが、利用者がiPhone 4Sのマイクに話しかけると意味や文脈を判断し、応対したり、関連する情報を探し出したりしてくれる。

 SiriはAppleが昨年買収した同名のベンチャー企業が手がけた技術で、元をたどれば米国防総省系の研究組織である国防高等研究計画局(DARPA)が手がけていたAIの研究に行き着く。DARPAといえばインターネットを生み出した機関である。

 そんなルーツを持つSiriをiPhoneに搭載することにこだわったのは、ほかでもないスティーブ・ジョブズ氏だ。したがってSiriは、iPhone 4Sの発表直後に死去した同氏が遺産として残した「iPhone進化の次なる芽」と目されている。

 その理由は、ジョブズ氏が長年こだわってきたマンマシン・ユーザーインタフェースの主軸が、文字・画像と手の動きを組み合わせた従来型から、音声自然言語によるやりとりへとパラダイムシフトする可能性があるからだ。そんなトライを続けてきたからこそ、iPhoneは多くの利用者を魅了しているのだろう。

 もう1つは、NTTドコモが11月4日に発表した「通訳電話サービスの試験提供開始」である。携帯電話を通して異なる言語で会話できる「通訳電話サービス」の試験提供を始めたもので、まずは日本語と英語もしくは韓国語の通訳に対応し、来年1月には中国語にも対応する予定。来年中の商用サービス開始を目指すという。

 クラウドサービスとして、通訳電話の会話を音声認識し文字化して文字同士を機械翻訳し、その後さらに音声合成することで通話相手に別言語で伝える仕組みだ。発話後、2秒程度で通訳されるという。また会話は、翻訳前後の内容がそれぞれの言語で携帯電話上にも文字で表示されるとしている。その携帯電話もゆくゆくはスマートフォンが中心になるだろう。

 現時点では日本語の認識精度が90%、英語が80%程度で、発話者が男性であれば翻訳の声も男性にするなどの工夫も加えられているという。これが完成すれば、まさしく世界で初めての「自動翻訳電話」が実現する。

 自動翻訳電話といえば、かつてNECのトップとしてコンピュータとコミュニケーションの融合をうたった「C&C」の理念を提唱した小林宏治氏が、その究極の姿であり自身の夢として挙げていたと記憶している。

 確かに自動翻訳電話が実現すれば、世界がどんなに変わることか……。駆け出し記者だった頃、小林氏の話を聞いてワクワクしたのを覚えている。

 最近は電話として使うことが少なくなったスマートフォンだが、Siriや自動翻訳のような機能が十分使えるものになってくれば、インタフェースの主役は再び「音声」になるかもしれない。ようやく映画「2001年 宇宙の旅」のAIコンピュータ「HAL」に少し近づく感じがする。

関連キーワード

スマートフォン | 音声認識


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ