音声認識技術を開発しているアドバンスト・メディアが8月21日、技術・戦略説明会を開催。同社の音声認識技術「AmiVoice」の優位性や、ビジネスのロードマップについて説明した。
アドバンスト・メディアは日本国内唯一の音声認識専門企業として1997年に創立。次世代音声認識技術のAmiVoiceを開発し、医療やモバイル、コールセンター、議会議事録、英語教育など、さまざまな分野で音声認識ソリューションを提供してきた。モバイルの分野では、「らくらくホン プレミアム」「らくらくホン ベーシックII」「らくらくホン6」の「音声入力メール」や、iPhone向けの「音声認識メール」、NTTドコモ向けの「声ちぇき!DX」「乗換案内NEXT」などにAmiVoiceを提供している(アドバンスト・メディアの関連記事一覧も参照)。
音声認識技術は同社のほかにNUANCEやSpinVoxなどの企業も開発しているが、「AmiVoiceの優位性は文章を認識できること」だと同社代表取締役の鈴木清幸氏は話す。「単語レベルで音声を認識できるサービスはほかにもあるが、世界的に見て文章を認識できるのはAmiVoiceだけ。AmiVoiceはマイクと電話回線の入力に対応しているほか、ディクテーション(書き取り)や単語認識もできる」と鈴木氏は自信を見せる。
アドバンスト・メディアのビジョンは「機械との自然なコミュニケーションを実現して社会に貢献すること、つまり人が機械に向けて自然に話しかけて目的がかなうこと」だと鈴木氏は説明する。そのキーコンセプトとなる言葉が“JUI”だ。JUIは「Joyful(楽しい)」「Useful(役に立つ、便利)」「Indispensable(なくてはならいもの)」の頭文字を取った造語。
「これまでは、企業やユーザーが(我々の技術に対して)拍手はしてくれるが、なかなか導入してくれなかった。うまく導入してもらうには、“Joyful”と“Useful”のどちらかが必要になる。企業とユーザーの両方にサービスを展開するにあたり、これ(JUI)がビジョンの実現に近づく1つの手段だと考えている」と鈴木氏は狙いを明かす。
鈴木氏は、音声認識技術のロードマップについて「第1世代:単語認識(1960年〜)」「第2世代:文章認識(1991年〜)」「第3世代:人主体の認識(2001年〜)」「第4世代:ユビキタス(2008年〜)」「第5世代:超音声認識(2011年〜)」の5世代に分けられると説明。音声認識技術の黎明期である第1〜第2世代の頃は「カーナビなどをはじめ、機械が主体となっており、技術はすごいがビジネスになっていなかった」という。
鈴木氏は「機械が王様で話す方が奴隷では、人はお金を払わない。人主体のサービスを作ればビジネスになる」と考え、第3世代の音声認識技術として「AmiVoice」を開発した。その中で同社が注力したのが、先述した文章の認識だ。だが、同じ意味の文章でも、ユーザーの年齢や性別、居住地(出身地)、性格などによってさまざまな言い回しが存在する。AmiVoiceはこうした言葉の“ゆらぎ”にも対応しており、不特定話者の言葉も認識できる。同じ言葉でもイントネーションが違ったり、歌うように発声しても認識する。「ここまでの認識精度は、世界的に見ても我々しか実現できない」と鈴木氏は胸を張る。
とはいえ、音声よりも(PCの)キーボードとマウスの方が素早く入力できることも多い。そこで鈴木氏は、音声入力を優位に展開すべく、キーボードとマウスのない世界である“モバイル”に着目した。同社は携帯向けの高度な音声認識技術として、デバイスとサーバに分割した音声認識システム「分散型音声認識技術(DSR)」を開発。DSRでは、端末に入力された音声データを、パケット通信でサーバに送信することで、従来の技術よりも音声の劣化が少なく、高精度の音声認識を可能にした。
アドバンスト・メディアは2009年3月から2011年3月までのロードマップを「フェーズ1(2009年3月期)」「フェーズ2(2010年3月期)」「フェーズ3(2011年3月期)」に分けている。「フェーズ1では想定以上の成果を得られた。現在取り組んでいるフェーズ2ではフェーズ1の事業を拡張し、“声が価値を生み出すサービス”を目指す」(鈴木氏)。その中でも基点となるサービスが、携帯向けの「音声入力メール」だ。
「これまでは(医療や教育など)不特定話者の領域を特化することでビジネスを成功させてきたが、音声入力メールでは領域を特化せず、汎用的なモデルを作ることに成功した」と鈴木氏は説明。音声入力メールが同社のビジネスの転機になったことを示した。
そして2011年以降の第3フェーズでは“あふれる声をデータ化するサービス事業”として、ライセンス販売からサービス利用料を徴収するビジネスを目指す。ここでは第5世代の音声認識技術として「超音声認識」が登場する見込みだ。「第5世代は常識を超えた世界。人間の力を借りずに対話ができる“擬人化”ができる」という。
例えば、PCや携帯の画面に表示されたキャラクターと会話を楽しんだり、Webサイトでの調べ物やチケットの予約をしたりという具合に、音声を用いたコンシェルジュサービスを利用できる。「すでに開発の“はしり”は進んでいる」(鈴木氏)とのことで、新たなエージェントサービスとして導入されることが期待される。
Copyright © ITmedia, Inc. All Rights Reserved.