ニュース
» 2011年01月12日 10時00分 UPDATE

目指すのは“意味まで分かる”音声認識――モバイルUIの変革を目指すニュアンス

端末の高機能化に伴う操作の煩雑化、慣れが必要なタッチパネル端末の文字入力など、昨今の端末操作にはさまざまな課題が見え始めている。その解決策の1つとして注目されるのが音声認識技術だ。米音声認識ソリューション大手のNuanceに、音声認識技術がスマートフォンの操作やサービスにもたらす新たな可能性について聞いた。

[房野麻子,ITmedia]
Photo 米Nuance Communications 副社長のマット・リーヴィス氏

 端末に向かって話した言葉が自動でテキスト化され、メールの作成やWebの検索に活用できる――。物理キーを搭載しないフルタッチ画面のスマートフォンが増え、メーカー各社が使いやすい文字入力方法を模索する中、にわかに注目を集めているのが音声認識技術を使った文字入力ソリューションだ。

 この冬、米Nuance Communications(以下、Nuance)の日本法人、ニュアンスコミュニケーションズジャパン(以下、ニュアンス)が日本市場に投入したiPhoneアプリ「Dragon Dictation」と「Dragon Search」も、音声認識技術を活用した製品の1つ。Dragon Dictationは音声認識で自動生成されたテキストをメールやSNSに利用でき、Dragon Searchは5つのコンテンツソースの検索が可能だ。

 アプリの配信開始に合わせて来日した、Nuanceの副社長マット・リーヴィス氏に、アプリ開発の背景や他の音声認識アプリに対する優位性、今後の進化の方向性などについて聞いた。

Photo iPhoneに向かって話すと、それを聞き取ってテキスト化するDragon Dictation
Photo 音声でGoogleかYahoo!(設定で選択可能)、Twitter、Wikipedia、Youtube、iTunesを横断検索できるDragon Search

Nuanceの音声認識、強みは“成長する”データベース

 Nuanceは、もともとOCR(光学文字認識)で知られるゼロックスから派生した企業。イメージング分野やヘルスケア分野、エンタープライズ分野でOCR技術を生かしたソリューションを提供しており、携帯端末向けにも音声認識技術や「T9」などの文字入力システムを提供している。携帯端末については、グローバルでT9系の文字入力システムが年間約9億台、音声認識技術が年間約2億台に搭載された実績があり、ドコモの「BlackBerry Bold 9700」に搭載された音声コマンド機能も同社の音声認識技術によるものだ。

 iPhone向けのDragon DictationとDragon Searchは、同社がPC向け音声認識ソフトウェアとして提供している「Dragon Naturally Speaking」をベースに開発されたアプリ。Nuanceでは2009年12月の英語版のリリースを皮切りに多言語対応を進め、今回の日本語版が8言語目の対応となる。

 日本でも音声認識技術を活用したスマートフォン向けアプリが登場し始める中、リーヴィス氏は自社アプリの優位点の1つとして“データベースが使えば使うほど成長する点”を挙げる。

 Dragon DictationとDragon Searchは、利用者の声の波形データを通信で解析サーバに送り、その結果をテキスト化して端末側に送り返している。この解析サーバ内にあるデータベースが音声認識の精度を高める上で重要な要素の1つであり、Nuanceのデータベースは、リサーチや開発に多額の投資をしているとリーヴィス氏は胸を張る。「製品をよりよくするためには、幅広く集めたデータをデータベースに反映させていくことが重要です。サーバに集まった音声データをもとにデータベースをチューンナップして、ユーザーが使えば使うほど精度が高まる――というのが私たちの製品の強み。クラウド上にあるデータベースは、流行語や方言も学び、どんどん賢くなっていくのです」(リーヴィス氏)

 データベースを充実させるためには、より多くのデータを集める必要がある。そのデータ収集の手段の1つとなるのが、今回配信を開始したDragon DictationとDragon Searchとなるわけだ。サービス開始当初のデータベースには、これまでNuanceがパッケージソフトで培ってきたデータに加え、IBMの音声認識ソフト「ViaVoice」のデータベースが反映されており、今後はiPhoneアプリを通じて取得されるリアルなデータの比重が大きくなっていくという。

 「認識精度を高めるには、一般の人が使っている“今の生きた言葉”をいかに集められるかが重要であり、そのための手段として、アプリは重要な位置付けになります」(リーヴィス氏)

 データベースのチューンナップは、ユーザーがアプリの画面上でテキストを修正をした場合に正しいものとマッチングさせる方法のほか、データベースからサンプルを抽出し、実際に発話された内容とその結果として出したテキストが合っているかどうかを確認する「Truth Transcription」という方法で行われる。

 iPhoneのアプリは2つとも無料で配信されているが、これはデータ収集のためのソリューションという側面があることに加え、携帯電話キャリアや端末メーカーに対して製品をデモンストレーションするという役割もあるためだ。iPhoneアプリが普及することで、ユーザーのニーズが高まり、キャリアや端末メーカーが音声認識技術を自社の製品に投入する――という流れを作ることを狙う。

 なお、このところ大きくシェアを伸ばしているAndroid端末への対応については、検討はしているものの、時期は未定としている。「サーバーベースのソリューションなので、どんなプラットフォームにも対応しますが、Androidへの対応については、今のところは未定です」(リーヴィス氏)

今後は音声から“言葉の意味”まで判断するように

Photo T-Mobile向けの音声認識サービス

 音声認識サービスの今後の進化の方向性についてリーヴィス氏は、「意味を理解して、判断するような形になっていくだろう」と話す。「例えば音声コマンドで電話をかける場合、現状では『○○さんに電話』というように、決まったルールに従って“命令”を出します。これが進化すると、例えば『青山のイタリアンレストランで19時から予約ができるところは?』といったように普通の会話調で話しても、検索結果が出てくるようになるでしょう。聞いたことをそのままテキスト化するだけではなく、内容や意味を理解した上で、次に必要なアプリケーションに移行するなどの動作をします」(リーヴィス氏)

 このような発展系の技術はすでに、一部の商用端末に採用されている。Nuanceが米通信オペレーターのT-Mobile向けに提供しているサービスでは、端末に搭載された「Genius Button」を押すと音声認識アプリが起動し、例えば「Send Text to Matt Revis, Let's meet at a restaurant」と話すだけで、宛先にMatt Revis氏のメールアドレス、本文に「Let's meet at a restaurant」というテキストが入ったメール画面が立ち上がる。この場合、「携帯電話が『Matt Revis』はメールを送る相手で、『Let's meet at a restaurant』が本文ということを理解して対応している」(リーヴィス氏)というわけだ。

 米ベンチャー企業「Siri」とのタイアップで提供しているソリューションにも、NUANCEの音声認識エンジンが使われている。自然な会話でコンシェルジュサービスを利用できるようにするもので、例えばユーザーが、「ボストンのイタリアンレストランで明日2名、予約を入れたい」と端末に向かって話すと、翌日、2人で予約できるボストンのイタリアンレストランの検索結果が表示される。リーヴィス氏が実際にデモを見せてくれたが、端末に向かって普通に話しかけるだけで、レストランのリストがスムーズに表示されるのには驚かされた。

Photo Siriとのタイアップで提供する音声認識サービス。自然な会話で利用できる

音声認識は日本で定着するのか

 米国では非常にポピュラーで、多くのシーンで使われているという音声入力だが、日本人は人前で端末に向かって話しかけるのを恥ずかしいと感じる傾向が強い。日本でも音声認識は広く定着するだろうか。

 「私自身もそうでしたが、あまり慣れていないと、やはり音声によるコマンドは恥ずかしいものです。まずは車の中や家の中で使って便利さを実感してもらえたらと思います。こうして自身で利用を重ねたり、友達や同僚が使っているのを見たりしていくうちに、『これって使えるアプリケーションなんだ』という意識になっていくことがあると思います。日本においても、音声認識に対するユーザーの方の感覚が変わっていくと信じています」(リーヴィス氏)

 また、音声認識によってケータイが使いやすくなることも期待できるという。「携帯電話のUIは、多機能化に伴って複雑化する一方ですが、音声認識技術を使うことによってシンプルになっていくと考えています」(リーヴィス氏)


Copyright© 2016 ITmedia, Inc. All Rights Reserved.