音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来：Googleの「音声検索」とは違う（1/2 ページ）

アドバンスト・メディアは、同社の音声認識技術「AmiVoice」を用いた幅広いサービスを展開している。同社が目指すのは、これまでの「機械中心」だった音声認識を超える「人間中心」のサービスだ。一方で、iPhoneやAndroid端末などモバイル分野にも注力していく。

[田中聡，ITmedia] PC用表示関連情報

LINE

Hatena

音声認識技術「AmiVoice」は幅広い分野で採用されている

　アドバンスト・メディアは同社の音声認識技術「AmiVoice」を用いて、医療やビジネスソリューション、コールセンター、教育、議事録などさまざまな分野で“音声認識”を浸透させてきた。モバイルでは、同社のらくらくホン向け「音声入力メール」やiPhone向け「音声認識メール」のほか、GoogleもiPhoneやAndroid端末向けに音声検索を提供。音声認識は文字入力に変わる新たなユーザーインタフェースとして身近な存在になりつつある。

　音声認識技術は今後どのような進化を遂げ、どのようなビジネスモデルが創出されるのか。同社が1月22日に実施した技術・戦略説明会で、その詳細を明かした。

今後は機械が人間並みのコミュニケーション能力を持つ

アドバンスト・メディア代表取締役会長鈴木清幸氏

　アドバンスト・メディア代表取締役会長の鈴木清幸氏は、「これまでの音声認識技術は機械中心だったが、今後は人間中心に回帰する」と話し、現在が転換期であることを示唆した。同社が考える音声認識の技術ロードマップは「第1世代：単語認識（1960年～）」「第2世代：文章認識（1991年～）」「第3世代：人主体の認識（2001年～）」「第4世代：ユビキタス（2008年～）」「第5世代：超音声認識（2011年～）」の5世代。第3世代では不特定話者の会話やスピード、抑揚の違いに対応し、第4世代では携帯電話や家電、車に対応した。そして第5世代では、人間並みの音声認識を可能にする“擬人化”が実現でき、本格的なソフトコミュニケーションの時代（SCE：Soft Communication Era）に突入するという。

音声認識技術のロードマップ

　この擬人化サービスの1例として鈴木氏は、キャラクターと対話をすることでユーザーの要求を満たすサービスを紹介。自分の星座を教えると占いをしてくれたり、好きな野球チームを教えてくれたりといった日常会話ができるほか、劇場のチケットを予約するなどのコンシェルジュ的なサービスも可能になるという。「何もない状態では人はしゃべらないので、誘導するものが必要。これは単なる音声認識ではできないものだ」と同氏は自信を見せる。

　また鈴木氏は、擬人化サービスは「多様化に対応することが重要だ」と話す。同氏がデモ中、キャラクターに「年はいくつ？」「年齢は何歳？」「年は何歳だと思ってるんだっけ？」「年齢は何歳だって皆に言いふらしてるの？」といった同じ意味の質問を繰り返したが、返ってきた答はいずれも「多分4歳です」だった。また、「僕は中日ファンだけど野球はどこのファンなの？」と質問すると「ジャイアンツ」と答えるという具合に、話し言葉からキーワードを抽出して正しい反応をすることもできる。さらに、「400円のリンゴを2つ買ったら」と聞くと「800円です」と答えるなど計算能力や、ユーザーの声をコンピューターが聞き取れなかったり、答えられない質問が来た場合は決まった言葉を話すといった“逃げ”の要素も盛り込んだ。このように「知識を持った擬人化に価値がある」と鈴木氏は話す。

対話型サービスを使って占いのデモを実施

「人気のあるミュージカルについて教えてくれるかな？」と聞くと、「ライオンキング」を勧めてくれたほか、関連するWebサイトに自動でジャンプし、チケットの予約状況も教えてくれた

　アドバンスト・メディアは将来的には、デモで実施したような、機械が人間並みのコミュニケーション能力を持つサービスを普及させる構えだ。鈴木氏は「設立当初に描いていた経営のビジョンにだいぶ近づいてきた」と振り返る。こうした対話型のサービスをケータイに実装することも検討はしているが、具体的な時期は未定。「まずは音声認識ソリューションでしっかり収益を上げたい」（鈴木氏）

アドバンスト・メディアが目指す10年後の音声認識技術の世界

Googleの音声検索はユーザー集めの道具にすぎない

　鈴木氏はGoogleが無料で音声検索を開始したことにも触れ、Googleの音声検索とはビジネスモデルが異なることを強調した。「Googleは広告料で収益を得ているので、音声検索は同社にとってユーザー集めの道具にすぎない」と説明する。音声認識ベンダーにとって、音声認識事業で収益を得るのは困難だが、アドバンスト・メディアはDSR（分散型音声認識技術）クライアントとサーバ使用料徴収ビジネスや、電子カルテや議事録などで声をデータ化する（VDS）事業など、独自のビジネスモデルを確立してきた。ちなみに、iPhoneの音声認識メールやTwitter連携は、DSR利用料徴収ビジネスで収益を上げている。

　「AmiVoiceの事業はユーザーが増えるほど収益の安定化が期待でき、利用者が増えるほど真似を阻む壁が高くなるので、Googleが手を出せない領域だ」と鈴木氏は自信を見せる。

アドバンスト・メディアが2009年度上期に実施してきたサービス事業（写真＝左）。同社が考える、超音声認識技術のビジネスモデル（写真＝中）。Googleの音声検索とはビジネスモデルが異なることを強調した（写真＝右）

音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来：Googleの「音声検索」とは違う（1/2 ページ）

今後は機械が人間並みのコミュニケーション能力を持つ

Googleの音声検索はユーザー集めの道具にすぎない

関連キーワード

音声認識 | アドバンスト・メディア | Google | 音声検索 | ビジネスモデル | コミュニケーション | iPhone | 擬人化 | Android | Androidケータイ | 対話型 | 議事録 | ロードマップ | Twitter | ユーザーインタフェース