認識エンジンの“カスタマイズ”が強み――Nuanceが目指す音声認識サービスの進化形Dragon Dictation/Searchも世界で好評(1/2 ページ)

文書管理ソフトや携帯電話・自動車、コールセンターなど幅広い分野で音声認識事業を展開しているNuance Communications。同社が配信中のiPhoneアプリ「Dragon Dictation」と「Dragon Search」は日本を含む世界で好評だ。同社は今後、どのような音声認識サービスを提供していくのか。

» 2011年06月15日 10時00分 公開
[PR/ITmedia]

 音声認識ソリューションの開発を進めている米Nuance Communications(以下、Nuance)が、2010年12月にiPhone向け音声認識アプリ「Dragon Dictation/Search」をリリースしてから約半年が経過した。今後の音声認識は「意味を理解して、判断するような形に進化していく」と同社副社長のマット・リーヴィス氏は2011年1月のインタビューで話していたが、こうした技術は現在、どこまで具現化されているのだろうか。

 米国マサチューセッツ州のバーリントンに本社を置くNuanceは、ゼロックスの事業部が分社化した「スキャンソフト」という会社が前身で、当初はOCRやイメージング製品、文書管理ソフトなどをOEM提供していた。その後、2000年にL&H社を買収し、音声事業に参画した。現在はOCR(光学式文字認識)や文書管理ソフトなどを手がける「イメージング」、携帯電話・自動車向けの組み込み型の音声入力や音声認識アプリを手がける「モバイル」、自動音声応答システムを手がける「コールセンター」、音声認識を用いて電子カルテを作成する「ヘルスケア」という4つの分野で事業を展開している。特にコールセンター事業では世界で約8割のシェアを有するほど強く、全世界のコールセンターで年間80億以上の電話問い合せを自動処理している。

 同社は日本を含む世界35拠点で約6000人以上の社員を擁し、イメージング製品と音声製品を柱に、ライセンス営業やソリューション提供などを行っている。2010年の売上高は約12億米ドルで、いわゆる“ワンビリオンカンパニー”へと成長を遂げた。

音声認識がスマートフォンの強力な入力インタフェースになる

photo ニュアンス・コミュニケーションズ・ジャパン 代表取締役 西村哲郎氏

 Nuanceの日本法人、ニュアンス・コミュニケーションズ・ジャパンの代表取締役 西村哲郎氏が、Nuanceが展開している事業の中で「一番伸びている分野」と感じているのが「モバイル」だ。同社がこれまで提供してきた携帯電話向けのサービスは、アドレス帳に登録した人物を呼び出すなどして電話発信できる「音声ダイヤル(VAD:Voice Activated Dialing)」、入力システムの「T9」、そしてスマートフォン向けの「音声認識アプリ」だ。T9は日本のケータイでもおなじみだが、現在は米国でAndroid端末向けの英語入力システム「FlexT9」を提供しており、通常のQWERTY入力のほか、音声入力、手書き入力、QWERTYキーボードをなぞるだけで入力できるトレース入力などが可能だ。

 モバイル事業の中で西村氏が特に注目しているのが、もう1つの入力方法である音声認識アプリだ。「スマートフォンではさまざまなアプリが動くのはもちろん、(ハードウェア)キーボードがない機種が多いので、音声認識が強力なUI(ユーザーインタフェース)のツールになります」と話す西村氏は、スマートフォンの普及が音声認識アプリにとって追い風になるとみている。

 音声ダイヤルにも音声認識の技術を用いているが、これは端末に組み込んだもの。音声認識アプリは音声データをサーバに送り、サーバがテキスト化をする仕組みを採用しているのが特徴で、膨大な言語データをサーバに保管し、高速な通信回線を用いてスピーディにテキスト化できる。Nuanceは、こうした仕組みを汎用化した「NMSP(Nuance Mobile Speech Platform)」と呼ばれるフレームワークを開発し、音声認識や検索、音声合成、声紋認証などを活用したさまざまなアプリを開発することを目指している。

 声紋認証を取り入れたアプリは現時点では提供していないが、今後需要が伸びていくと西村氏はみる。「特に役立つのがモバイルコマース。ショッピングサイトにログインするにはユーザーIDとパスワードの入力が必要ですが、セキュリティ性を高めるために、声紋認証を採用したいと考えているコンテンツプロバイダーは多いと思います。声紋認証なら、ケータイを落としてもパスワードが使われてしまうといったことはありません」と西村氏は説明する。こうしたコンシューマー向け以外にも、保険の外交員や営業員など、ビジネスのデータベースなどにアクセスする際にも声紋認証は使えると同氏は考える。「営業日報を音声認識で書くという方法も面白そうですね」(西村氏)

世界8カ国で高い評価を得た「Dragon Dictation」

 NuanceがiPhone向けに提供している音声認識アプリ「Dragon Dictation」と「Dragon Search」も、NMSPを活用したものだ。Dragon Dictationは、iPhoneに向かって発した音声をテキスト化し、SMSやEメールを送ったり、TwitterやFacebookへ投稿したりできる。表示されたテキストの単語ごとに類似する単語を提案したり、ソフトウェアキーボードを出して手動で修正したりすることもできる。Dragon Searchは検索用の音声認識アプリ。発した単語のGoogle、Wikipedia、Twitter、YouTube、iTunes Music Storeの検索結果を横断して閲覧できるのが特徴だ。

photo Nuance Communications 副社長 マット・リーヴィス氏

 Nuance Communications 副社長のマット・リーヴィス氏は「我々のアプリケーションを利用することで、キーボードよりも簡単に携帯端末上で文字を入力できるので、新しいレベルのユーザー体験を得られます。Dragon Dictationではテキストを話すだけでSMSやEメール、SNSなどに情報を送信でき、キー入力よりも5倍速く入力できるという結果も出ています。またDragon Searchではさまざまな検索チャンネルを横断して素早く検索ができます」と特長を説明する。

 これら2つのアプリのUIでこだわったのが「簡単な操作性」だ。「メッセージは簡単に入力して送信できることが大事です。Dragon Dictationではシンプルなインタフェースを採用し、ワンタップで音声入力画面が表示されるようにしました。さらに、(入力された言葉と類似するものがあった場合は)他の候補を簡単に選び、(間違っていた場合も)簡単に修正できるよう、音声入力の編集機能も工夫しました」(リーヴィス氏)。入力された言葉のコピーやメール、SNSへの送信などについても、入力画面右下の矢印キーを押して項目を選ぶだけで簡単に操作できる。

 Dragon Searchでも目的の検索結果をスピーディに得られるようこだわった。「Webサイトの青いリンクが一覧表示されるこれまでの検索方法よりも便利に使うためにはどうすべきか」(リーヴィス氏)を考えた末に開発されたのが「Dragon Carousel(ドラゴンカルーセル)」と呼ばれる独自の検索インタフェースだ。これにより、Dragon Searchの検索結果の画面上部に並ぶGoogle、Twitter、YouTubeなどのアイコンを左右にフリックするだけで、直感的に目当ての情報にたどりつける。「このインタフェースは、ユーザーやパートナー企業の方々にも好評です」とリーヴィス氏も手応えを感じている。

photophotophotophoto 中央の赤いマークをタップしてから話しかける(写真=左端、左中)。話しかけた文章が表示される(写真=右中)。手動で修正することも可能だ(写真=右端)
photophotophotophoto 任意の単語に触れると、類似する音の単語が表示されるので修正しやすい(写真=左端)。音声入力した文章はTwitterやFacebookに投稿したり、メール送信したりできる(写真=左中)。「設定」から、TwitterやFacebookのアカウント設定、利用言語の選択などができる(写真=右中、右端)
photophotophotophoto Dragon Searchでは、話しかけた単語をGoogle、Wikipedia、YouTubeなどで横断検索できる




photo Nuance Communications ニュアンス・コミュニケーションズ・ジャパン プロダクティビティ製品ディビジョン シニアセールスマネージャー 馬場道生氏

 2010年の12月に配信してから、Dragon DictationとDragon Searchあわせて世界で数百万ダウンロードを記録。Dragon Dictationは8カ国のApp Storeで1位か2位を獲得するなど、高い評価を得ている。日本のApp Storeでも12月末時点で無料アプリの総合1位、2011年3月末にも無料ビジネスアプリで1位を維持し、ニュアンス・コミュニケーションズ・ジャパン プロダクティビティ製品ディビジョン シニアセールスマネージャーの馬場道生氏は「突発的な人気ではなく、長く使われている」と手応えを感じている。さらに、3月11日の東日本大震災後には、Dragon DictationがApp Storeの災害対策アプリに選ばれている。馬場氏は「SNS連携や、何かをしながら入力できること、長文も入力できることなどが評価されたのでは」とみている。

 Dragon Dictation/Searchの対応OSにまずiOSを選んだのは、世界随一ともいえる大規模なアプリマーケットの存在が大きいという。「現在App Storeには42万5000以上のアプリが配信されており、140億ものアプリがダウンロードされています。iOSのマーケットが盛況しているのは明白です」とリーヴィス氏は説明する。「Dragon Dictation/SearchがiOSユーザーに好評であることも大きいですね。アプリを配信した日本を含むすべての国において、無料アプリでトップクラスのポジションを得ることができました」とリーヴィス氏は胸を張る。

 iOS版が好評であるだけに、Dragon Dictation/SearchがAndroidやWindows phone向けに配信されるのかも気になるところだ。「Nuanceは、2011年1月にFlexT9をリリースするタイミングでAndroid マーケットにも参入しました。FlexT9では、Dragon Dictation、T9 Trace、T9 Write、XT9という4つの入力インタフェースを提供しています。話す、トレースする(なぞる)、タップする、タイプするという方法で入力できるので、ユーザーの要望に応じてコミュニケーション方法を選べます」とリーヴィス氏は利点を説明する。FlexT9は現時点では日本語には対応していないが、Dragon Dictation/Searchのような“日本対応”にも期待したい。

 Windows phoneについては、LGエレクトロニクス製のWindows Phone 7搭載モデル「Optimus」にDragon Dictationの音声認識技術が採用されています。今後のOS拡張について「現時点で発表できるものはありません」と明言を避けたが、「新しいOSや言語の対応、アプリの開発は継続的に実施しているので、この後のアップデートには注目してください」(リーヴィス氏)とのことだ。


alt

alt

使うほどに認識の精度が向上する

 気になるのが音声認識の精度だが、Nuanceの製品には「NLU(Natural Language Understanding)」という自然言語処理エンジンを採用しており、「言葉」だけではなくその「意味」も理解する。例えば「熱い」「厚い」「暑い」といった同音異義語は前後の文脈から判断して最適な言葉を導き出す。方言については、「ありがとう」「おおきに」など言い回しが違う言葉はそれぞれをデーターベースに登録し、言い回しは同じだがイントネーションが違う言葉は問題なく認識できるという。

 「Dragon Dictation/Searchは14カ国語をサポートしており、16カ国のApp Storeで配信されています。音声認識できる語彙数は言語によって異なりますが、(対応している)すべての言語において、我々は友達にメールを送るときに使うような日常会話から、法律文書に使うような専門用語まで徹底的にリサーチし、広範囲な語彙をカバーできるようこだわっています」(リーヴィス氏)

photo Nuance Communications グローバル・ストラテジック・アライアンス シニア・テクニカル・アドバイザー 岡本剛氏

 NLUは学習機能も備えているので、使うほどに精度が高くなっていく。例えば、固有名詞など1回目の登録で認識できなくても、ユーザーが修正を加えることで認識エンジンが更新され、以降は認識率が向上する。これは自分だけでなく、他ユーザーの認識率アップにも貢献するので、マニアックな固有名詞を1回で音声認識できる、といったこともあり得る。このあたりもクラウドサービスの利点といえるだろう。Nuance Communications グローバル・ストラテジック・アライアンス シニア・テクニカル・アドバイザーの岡本剛氏によると、音声認識エンジンは、1日1回アップデートを施しているという。

 一方で、「個人の音声認識に対応するためのユーザープロファイルを保持している」(リーヴィス氏)ことで、各ユーザーの傾向にもとづいた認識も可能になる。例えば「あいふぉん」で「iPhone」ではなく「アイフォーン」と何度も入力していたとする。アプリ側は統計にもとづいてテキスト化するので、大多数のユーザーが「あいふぉん→iPhone」と入力していた場合、最初のうちは「iPhone」と変換されて「アイフォーン」とは出ない。しかし、何度か「アイフォーン」と修正することで認識の精度がカスタマイズされ、「あいふぉん→アイフォーン」と変換されやすくなる。ユーザープロファイルは端末ごとに保持されるので、上記の例では、他のユーザーが「あいふぉん」と発した場合も「アイフォーン」と入力される。

 同じ読みでもさまざまな漢字が使われる「人名」についても、認識結果はユーザープロファイルに依存するので、例えばユーザーが漢字を修正して入力した場合、それにもとづいて認識結果が変わっていく。さらに、岡本氏によると、Dragon Dictationでは初回起動時にアドレス帳のデータをアプリ側に取り込み(ポップアップ画面から、ユーザーがその可否を決定できる)、アドレス帳に登録した人物の漢字を優先的に表示するという。これは、アドレス帳で使われている表記を、音声認識後に上書きする仕組みになっているため。

 ユーザープロファイルに加え、音声認識を使い続けるほどに、話者の声の特徴をエンジンが覚えていき、認識精度が向上していく。例えば、風邪を引いて少し声色が変わったり、騒音の多い場所で利用したりしても、正しく認識されるようになる。

 単語を認識してテキスト化するのはソフトの仕事だが、実際に話者の声を拾うのは端末のマイクなので、認識の精度が端末のマイクに依存する部分もある。「iPhoneの場合、周りで音がしていると、話者と思われる声を拾うこともあります。ただ、(周りの音が)人間の声でなければ認識が大きく狂うことはありません」(岡本氏)

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.


提供:ニュアンスコミュニケーションズジャパン株式会社
アイティメディア営業企画/制作:ITmedia +D 編集部/掲載内容有効期限:2011年6月30日