インタビュー
» 2009年08月27日 18時55分 UPDATE

まずはiPhoneからTwitterと連携する――音声認識技術「AmiVoice」が向かう先 (1/2)

「携帯電話の音声入力はキー入力を補完するもの」と考える人が多いだろうが、アドバンスト・メディアが開発する音声認識技術「AmiVoice」は、音声入力が主役になる可能性を秘めている。キーワードは“対話”と“Twitter”だ。

[田中聡,ITmedia]
photo アドバンスト・メディア ソリューション事業部 技術グループ モバイルプロジェクトチーム チームリーダー 枝連俊弘氏

 キー入力から音声入力へ――。日本唯一の音声認識専門企業 アドバンスト・メディアが開発した音声認識エンジン「AmiVoice」は、入力方法の常識を覆す可能性を秘めている。それは、AmiVoiceが医療、モバイル、コールセンター、英語教育などの分野において、さまざまなパターンの単語と文章を高い精度で認識できる技術をベースに開発されていることが大きい。

 さらに、同社が音声認識を優位に展開できると考える携帯電話向けでは、パケット通信を利用した分散型音声認識技術「DSR」を開発し、劣化のない音声データによる音声認識が可能になった。これらの技術は「らくらくホン プレミアム」「らくらくホンV」「らくらくホン ベーシックII」「らくらくホン6」や、iPhone向けの「音声認識メール」などで活用されている。

 アドバンスト・メディアは今後、携帯向けにどのようなサービスを展開していくのか。同社ソリューション事業部 技術グループ モバイルプロジェクトチーム チームリーダーの枝連俊弘氏に話を聞いた。

iPhoneとらくらくホンの音声認識は違う

photophoto らくらくホンシリーズ向けの「音声入力メール」

ITmedia 御社は携帯電話向けにはいつごろから音声認識技術を採用したのでしょうか。

枝連氏 ボーダフォン(現ソフトバンクモバイル)の「702NK」に搭載したのが初めてでした。同時期にはドコモの「M1000」にも採用しました。スマートフォン以外では、富士通さんに提案をしたところ、ナビアプリを採用した「らくらくホンIV」に音声入力機能を搭載することになりました。ただし当時の音声入力は難易度が高かったため、メールには使っておらず、乗換案内の駅名入力や地図の住所入力など、検索の単語入力が主な用途でした。

 その後、2008年に発売された「らくらくホン プレミアム」で「音声入力メール」を搭載したいというリクエストをドコモさんからいただき、開発することになりました。続いて発売された「らくらくホンV」「らくらくホン ベーシックII」「らくらくホン6」にも音声入力メールは使われています。

ITmedia ドコモ向けの音声入力メールはNECやシャープ製の一部機種も対応していますが、これらの機種にもAmiVoiceが使われているのでしょうか。

枝連 ドコモさんの音声入力メールで弊社の音声認識技術を使っているのは、現在はらくらくホンシリーズのみです。音声入力メールのサービスにどの技術を選択するかは、メーカーさんの判断に委ねられています。

ITmedia そうなると、らくらくホンの音声入力メールと、NECとSH端末の音声入力メールは精度が異なるわけですね。

枝連 そうですね。あくまで弊社の調査ですが、らくらくホンの音声入力メールの方が精度が高いという結果が出ています。

photo iPhone向けの「音声認識メール」。Ver1.0では音声入力した文字のコピー&ペーストが可能になった。価格は600円だが、2010年2月1日以降は月額115円となる。ダウンロードはこちらから。コピー&ペーストのできない無料版もある

ITmedia iPhone向けの「音声認識メール」は、らくらくホンの音声入力メールと精度は同じなのでしょうか。

枝連 音声認識メールは、言語データベースと音声データベースをiPhone向けに特化して開発しています。iPhoneには単語の学習機能を搭載していまして、間違えて認識された後に修正した単語は2回目以降は正確に入力できるほか、アドレス帳に登録した人名も簡単に入力できます。iPhoneの方が精度が高いと感じる人は多いのではないでしょうか。

「登録単語数が多い」=「認識率が高い」ではない

ITmedia あらためて、AmiVoiceとDSRを採用した御社の音声認識における優位性を教えてください。

枝連 DSRの技術は標準化が進んでいるので、技術自体の優位性はなくなりつつあります。「DSRのプラットフォームを使って何ができるのか」が重要になります。ではどこで差が出るのかというと、音声認識の精度だと考えています。弊社のAmiVoiceと他社さんの音声認識エンジンの数字を取っていくと、きちんと差が出ています。

 このほか、音声認識を使ったソリューションを手がける際に、これまでのノウハウや経験を生かし、完成度の高いユーザーインタフェースを提供できることも挙げられます。「音声認識はうち(アドバンスト・メディア)がフロントランナーだ」と自負しています。

ITmedia AmiVoiceはさまざまな抑揚や方言も認識できますね。歌いながら発した言葉も認識するというのは少し驚きました。

枝連 人間なのでいろいろな言葉の“ゆらぎ”がありますが、AmiVoiceはそのゆらぎを追従できます。測定しにくい部分ではありますが、高い評価をいただいています。

ITmedia 老若男女、幅広いユーザーを網羅しているわけですね。

枝連 技術者として厳密に言うと、漏れる部分はあります。100%ではないけれど、統計的に処理したときに優位性があるということです。電子カルテの場合、北海道のお医者さんも沖縄のお医者さんも医学用語に方言が反映されることはありませんが、メールには幅広い方言が用いられるので、追従する必要があります。

 ではどこまでカバーしているのかというと、関西弁については多くの言葉を辞書に登録しています。じゃあ博多弁、青森の奥地の方言はどうなんだと言われると、すべてはカバーできていないのが実情です。今あるデータの中できちんと対応しているということです。

ITmedia 音声認識のデータベースに登録されている単語はどれくらいあるのでしょうか。

枝連 データベースの数はサービスによって異なります。ナビアプリのランドマーク名は約20万単語、駅名は日本全国の1万弱をカバーしています。メールで使われる単語はこれらの間くらいでしょうか。ただし、単語数が多いからといって必ずしも認識率が高いわけではありません。

 単語数が多いとカバーする領域が広くなるので、必要のない範囲まで探すようになり、(似たような言葉を検出するなど)かえって認識精度が落ちることがあるんです。一概に数字は出せませんが、認識精度を上げるための最適な単語数というものがあります。

 一般の成人男性がメールで使う単語は2万語ほどと言われていますが、その中で使う言葉は人によって違うわけです。その人ごとに辞書を作ってあげるのが理想的ですね。それがiPhoneの音声認識メールに搭載している学習機能です。

学習機能+音声認識が1つの理想形

ITmedia iPhone以外の携帯電話の音声入力メールに学習機能を搭載するのは難しいのでしょうか。

枝連 技術的には可能ですが、らくらくホンの場合はドコモさんの意向なども関係してくるため、現状では採用していません。

ITmedia 学習機能を備えた音声認識が、1つの理想形といえるのでしょうか。

枝連 そうですね。よく人間に置き換えて考えているのですが、祖父母や子どもの話し言葉は、親族にしか聞き取れないことが多いですよね。あれは子どもが話す短縮語の意味を知っている言語データベースと、子どもが話す音のクセを(親族が)知らないうちに学習しているからなんです。音声認識もそういった機能がないと、万人には使ってもらえないでしょう。人間の脳と同じように認識できることが今後の目標ですね。

ITmedia iPhoneの音声認識メールの学習能力も、まだ精度を上げる余地はあるのでしょうか。

枝連 あります。まずベースとなる音声認識そのものと、学習機能という2点を向上できると考えています。今のところ音声認識メールが学習するのは言語のみですが、音響を学習する仕組みもいずれは入れたいですね。

ITmedia 音響の学習とはどんなものでしょうか。

枝連 「あ」「さ」などその人が発する声の特性を学習することで、イントネーションや発音の強弱も含まれます。音響の学習はほかの分野では採用していますが、携帯電話向けには「単語」と「単語のつながり」の学習にとどめています。

       1|2 次のページへ

Copyright© 2016 ITmedia, Inc. All Rights Reserved.