ニュース
» 2010年01月22日 23時31分 UPDATE

Googleの「音声検索」とは違う:音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来 (1/2)

アドバンスト・メディアは、同社の音声認識技術「AmiVoice」を用いた幅広いサービスを展開している。同社が目指すのは、これまでの「機械中心」だった音声認識を超える「人間中心」のサービスだ。一方で、iPhoneやAndroid端末などモバイル分野にも注力していく。

[田中聡,ITmedia]
photo 音声認識技術「AmiVoice」は幅広い分野で採用されている

 アドバンスト・メディアは同社の音声認識技術「AmiVoice」を用いて、医療やビジネスソリューション、コールセンター、教育、議事録などさまざまな分野で“音声認識”を浸透させてきた。モバイルでは、同社のらくらくホン向け「音声入力メール」やiPhone向け「音声認識メール」のほか、GoogleもiPhoneやAndroid端末向けに音声検索を提供。音声認識は文字入力に変わる新たなユーザーインタフェースとして身近な存在になりつつある。

 音声認識技術は今後どのような進化を遂げ、どのようなビジネスモデルが創出されるのか。同社が1月22日に実施した技術・戦略説明会で、その詳細を明かした。

今後は機械が人間並みのコミュニケーション能力を持つ

photo アドバンスト・メディア 代表取締役会長 鈴木清幸氏

 アドバンスト・メディア 代表取締役会長の鈴木清幸氏は、「これまでの音声認識技術は機械中心だったが、今後は人間中心に回帰する」と話し、現在が転換期であることを示唆した。同社が考える音声認識の技術ロードマップは「第1世代:単語認識(1960年〜)」「第2世代:文章認識(1991年〜)」「第3世代:人主体の認識(2001年〜)」「第4世代:ユビキタス(2008年〜)」「第5世代:超音声認識(2011年〜)」の5世代。第3世代では不特定話者の会話やスピード、抑揚の違いに対応し、第4世代では携帯電話や家電、車に対応した。そして第5世代では、人間並みの音声認識を可能にする“擬人化”が実現でき、本格的なソフトコミュニケーションの時代(SCE:Soft Communication Era)に突入するという。

photo 音声認識技術のロードマップ

 この擬人化サービスの1例として鈴木氏は、キャラクターと対話をすることでユーザーの要求を満たすサービスを紹介。自分の星座を教えると占いをしてくれたり、好きな野球チームを教えてくれたりといった日常会話ができるほか、劇場のチケットを予約するなどのコンシェルジュ的なサービスも可能になるという。「何もない状態では人はしゃべらないので、誘導するものが必要。これは単なる音声認識ではできないものだ」と同氏は自信を見せる。

 また鈴木氏は、擬人化サービスは「多様化に対応することが重要だ」と話す。同氏がデモ中、キャラクターに「年はいくつ?」「年齢は何歳?」「年は何歳だと思ってるんだっけ?」「年齢は何歳だって皆に言いふらしてるの?」といった同じ意味の質問を繰り返したが、返ってきた答はいずれも「多分4歳です」だった。また、「僕は中日ファンだけど野球はどこのファンなの?」と質問すると「ジャイアンツ」と答えるという具合に、話し言葉からキーワードを抽出して正しい反応をすることもできる。さらに、「400円のリンゴを2つ買ったら」と聞くと「800円です」と答えるなど計算能力や、ユーザーの声をコンピューターが聞き取れなかったり、答えられない質問が来た場合は決まった言葉を話すといった“逃げ”の要素も盛り込んだ。このように「知識を持った擬人化に価値がある」と鈴木氏は話す。

photophotophoto 対話型サービスを使って占いのデモを実施
photophotophoto 「人気のあるミュージカルについて教えてくれるかな?」と聞くと、「ライオンキング」を勧めてくれたほか、関連するWebサイトに自動でジャンプし、チケットの予約状況も教えてくれた

 アドバンスト・メディアは将来的には、デモで実施したような、機械が人間並みのコミュニケーション能力を持つサービスを普及させる構えだ。鈴木氏は「設立当初に描いていた経営のビジョンにだいぶ近づいてきた」と振り返る。こうした対話型のサービスをケータイに実装することも検討はしているが、具体的な時期は未定。「まずは音声認識ソリューションでしっかり収益を上げたい」(鈴木氏)

photo アドバンスト・メディアが目指す10年後の音声認識技術の世界

Googleの音声検索はユーザー集めの道具にすぎない

 鈴木氏はGoogleが無料で音声検索を開始したことにも触れ、Googleの音声検索とはビジネスモデルが異なることを強調した。「Googleは広告料で収益を得ているので、音声検索は同社にとってユーザー集めの道具にすぎない」と説明する。音声認識ベンダーにとって、音声認識事業で収益を得るのは困難だが、アドバンスト・メディアはDSR(分散型音声認識技術)クライアントとサーバ使用料徴収ビジネスや、電子カルテや議事録などで声をデータ化する(VDS)事業など、独自のビジネスモデルを確立してきた。ちなみに、iPhoneの音声認識メールやTwitter連携は、DSR利用料徴収ビジネスで収益を上げている。

 「AmiVoiceの事業はユーザーが増えるほど収益の安定化が期待でき、利用者が増えるほど真似を阻む壁が高くなるので、Googleが手を出せない領域だ」と鈴木氏は自信を見せる。

photophotophoto アドバンスト・メディアが2009年度上期に実施してきたサービス事業(写真=左)。同社が考える、超音声認識技術のビジネスモデル(写真=中)。Googleの音声検索とはビジネスモデルが異なることを強調した(写真=右)
       1|2 次のページへ

Copyright© 2016 ITmedia, Inc. All Rights Reserved.