常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性

» 2009年08月21日 21時58分 公開
[田中聡,ITmedia]

 音声認識技術を開発しているアドバンスト・メディアが8月21日、技術・戦略説明会を開催。同社の音声認識技術「AmiVoice」の優位性や、ビジネスのロードマップについて説明した。

 アドバンスト・メディアは日本国内唯一の音声認識専門企業として1997年に創立。次世代音声認識技術のAmiVoiceを開発し、医療やモバイル、コールセンター、議会議事録、英語教育など、さまざまな分野で音声認識ソリューションを提供してきた。モバイルの分野では、「らくらくホン プレミアム」「らくらくホン ベーシックII」「らくらくホン6」の「音声入力メール」や、iPhone向けの「音声認識メール」、NTTドコモ向けの「声ちぇき!DX」「乗換案内NEXT」などにAmiVoiceを提供している(アドバンスト・メディアの関連記事一覧も参照)。

photophoto アドバンスト・メディアの概要(写真=左)。アドバンスト・メディア 代表取締役社長 長谷川一行氏(写真=右)。「音声認識市場の立ち上げは苦戦したが、第一線の企業に使っていただいている。携帯は個人向けだけでなく、企業のプラットフォームにも展開していきたい」
photophotophoto アドバンスト・メディアの第13期第1四半期業績(写真=左)。同社のプロダクト部門(写真=中)とソリューション部門(写真=右)の実績

機械が王様で人間が奴隷では、人はお金を払わない

photo アドバンスト・メディア 代表取締役会長 鈴木清幸氏

 音声認識技術は同社のほかにNUANCEやSpinVoxなどの企業も開発しているが、「AmiVoiceの優位性は文章を認識できること」だと同社代表取締役の鈴木清幸氏は話す。「単語レベルで音声を認識できるサービスはほかにもあるが、世界的に見て文章を認識できるのはAmiVoiceだけ。AmiVoiceはマイクと電話回線の入力に対応しているほか、ディクテーション(書き取り)や単語認識もできる」と鈴木氏は自信を見せる。

 アドバンスト・メディアのビジョンは「機械との自然なコミュニケーションを実現して社会に貢献すること、つまり人が機械に向けて自然に話しかけて目的がかなうこと」だと鈴木氏は説明する。そのキーコンセプトとなる言葉が“JUI”だ。JUIは「Joyful(楽しい)」「Useful(役に立つ、便利)」「Indispensable(なくてはならいもの)」の頭文字を取った造語。

 「これまでは、企業やユーザーが(我々の技術に対して)拍手はしてくれるが、なかなか導入してくれなかった。うまく導入してもらうには、“Joyful”と“Useful”のどちらかが必要になる。企業とユーザーの両方にサービスを展開するにあたり、これ(JUI)がビジョンの実現に近づく1つの手段だと考えている」と鈴木氏は狙いを明かす。

photophoto AmiVoiceの特徴(写真=左)。アドバンスト・メディアは「JUI」をコンセプトとして音声認識技術を提供する(写真=右)
photo 音声認識技術のロードマップ

 鈴木氏は、音声認識技術のロードマップについて「第1世代:単語認識(1960年〜)」「第2世代:文章認識(1991年〜)」「第3世代:人主体の認識(2001年〜)」「第4世代:ユビキタス(2008年〜)」「第5世代:超音声認識(2011年〜)」の5世代に分けられると説明。音声認識技術の黎明期である第1〜第2世代の頃は「カーナビなどをはじめ、機械が主体となっており、技術はすごいがビジネスになっていなかった」という。

 鈴木氏は「機械が王様で話す方が奴隷では、人はお金を払わない。人主体のサービスを作ればビジネスになる」と考え、第3世代の音声認識技術として「AmiVoice」を開発した。その中で同社が注力したのが、先述した文章の認識だ。だが、同じ意味の文章でも、ユーザーの年齢や性別、居住地(出身地)、性格などによってさまざまな言い回しが存在する。AmiVoiceはこうした言葉の“ゆらぎ”にも対応しており、不特定話者の言葉も認識できる。同じ言葉でもイントネーションが違ったり、歌うように発声しても認識する。「ここまでの認識精度は、世界的に見ても我々しか実現できない」と鈴木氏は胸を張る。

photophoto AmiVoiceを利用した電子カルテの入力画面。専門用語も音声で正確に入力されていく

 とはいえ、音声よりも(PCの)キーボードとマウスの方が素早く入力できることも多い。そこで鈴木氏は、音声入力を優位に展開すべく、キーボードとマウスのない世界である“モバイル”に着目した。同社は携帯向けの高度な音声認識技術として、デバイスとサーバに分割した音声認識システム「分散型音声認識技術(DSR)」を開発。DSRでは、端末に入力された音声データを、パケット通信でサーバに送信することで、従来の技術よりも音声の劣化が少なく、高精度の音声認識を可能にした。

photophoto 分散型音声認識技術(DSR)を利用することで、高精度な音声認識が可能になる(写真=左)。AmiVoiceエンジンの音声認識デコーダは「音響モデル」「辞書」「言語モデル」の3つのデータベースを備えている(写真=右)

携帯やPCと会話ができる「超音声認識」も登場する

 アドバンスト・メディアは2009年3月から2011年3月までのロードマップを「フェーズ1(2009年3月期)」「フェーズ2(2010年3月期)」「フェーズ3(2011年3月期)」に分けている。「フェーズ1では想定以上の成果を得られた。現在取り組んでいるフェーズ2ではフェーズ1の事業を拡張し、“声が価値を生み出すサービス”を目指す」(鈴木氏)。その中でも基点となるサービスが、携帯向けの「音声入力メール」だ。

 「これまでは(医療や教育など)不特定話者の領域を特化することでビジネスを成功させてきたが、音声入力メールでは領域を特化せず、汎用的なモデルを作ることに成功した」と鈴木氏は説明。音声入力メールが同社のビジネスの転機になったことを示した。

 そして2011年以降の第3フェーズでは“あふれる声をデータ化するサービス事業”として、ライセンス販売からサービス利用料を徴収するビジネスを目指す。ここでは第5世代の音声認識技術として「超音声認識」が登場する見込みだ。「第5世代は常識を超えた世界。人間の力を借りずに対話ができる“擬人化”ができる」という。

photophotophoto アドバンスト・メディアのロードマップはフェーズ1からフェーズ3までが想定されている(写真=左)。フェーズ3では、プラットフォームを提供して利用料を徴収することで、収益の拡大を目指す(写真=中)。AmiVoiceを提供する市場規模の予測(写真=右)

 例えば、PCや携帯の画面に表示されたキャラクターと会話を楽しんだり、Webサイトでの調べ物やチケットの予約をしたりという具合に、音声を用いたコンシェルジュサービスを利用できる。「すでに開発の“はしり”は進んでいる」(鈴木氏)とのことで、新たなエージェントサービスとして導入されることが期待される。

photophotophoto 説明会では、試作段階のキャラクターを使ってエージェントサービスのデモが実施された。自分の生年月日を教えると占ってくれたり、好きな食べ物を教えてくれたりする
photophoto 「『ライオンキング』について調べたい」と話すと、ライオンキングの公式サイトに自動でアクセスするほか、チケット予約についても案内してくれる

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー

2024年