常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性

» 2009年08月21日 21時58分 公開
[田中聡,ITmedia]

 音声認識技術を開発しているアドバンスト・メディアが8月21日、技術・戦略説明会を開催。同社の音声認識技術「AmiVoice」の優位性や、ビジネスのロードマップについて説明した。

 アドバンスト・メディアは日本国内唯一の音声認識専門企業として1997年に創立。次世代音声認識技術のAmiVoiceを開発し、医療やモバイル、コールセンター、議会議事録、英語教育など、さまざまな分野で音声認識ソリューションを提供してきた。モバイルの分野では、「らくらくホン プレミアム」「らくらくホン ベーシックII」「らくらくホン6」の「音声入力メール」や、iPhone向けの「音声認識メール」、NTTドコモ向けの「声ちぇき!DX」「乗換案内NEXT」などにAmiVoiceを提供している(アドバンスト・メディアの関連記事一覧も参照)。

photophoto アドバンスト・メディアの概要(写真=左)。アドバンスト・メディア 代表取締役社長 長谷川一行氏(写真=右)。「音声認識市場の立ち上げは苦戦したが、第一線の企業に使っていただいている。携帯は個人向けだけでなく、企業のプラットフォームにも展開していきたい」
photophotophoto アドバンスト・メディアの第13期第1四半期業績(写真=左)。同社のプロダクト部門(写真=中)とソリューション部門(写真=右)の実績

機械が王様で人間が奴隷では、人はお金を払わない

photo アドバンスト・メディア 代表取締役会長 鈴木清幸氏

 音声認識技術は同社のほかにNUANCEやSpinVoxなどの企業も開発しているが、「AmiVoiceの優位性は文章を認識できること」だと同社代表取締役の鈴木清幸氏は話す。「単語レベルで音声を認識できるサービスはほかにもあるが、世界的に見て文章を認識できるのはAmiVoiceだけ。AmiVoiceはマイクと電話回線の入力に対応しているほか、ディクテーション(書き取り)や単語認識もできる」と鈴木氏は自信を見せる。

 アドバンスト・メディアのビジョンは「機械との自然なコミュニケーションを実現して社会に貢献すること、つまり人が機械に向けて自然に話しかけて目的がかなうこと」だと鈴木氏は説明する。そのキーコンセプトとなる言葉が“JUI”だ。JUIは「Joyful(楽しい)」「Useful(役に立つ、便利)」「Indispensable(なくてはならいもの)」の頭文字を取った造語。

 「これまでは、企業やユーザーが(我々の技術に対して)拍手はしてくれるが、なかなか導入してくれなかった。うまく導入してもらうには、“Joyful”と“Useful”のどちらかが必要になる。企業とユーザーの両方にサービスを展開するにあたり、これ(JUI)がビジョンの実現に近づく1つの手段だと考えている」と鈴木氏は狙いを明かす。

photophoto AmiVoiceの特徴(写真=左)。アドバンスト・メディアは「JUI」をコンセプトとして音声認識技術を提供する(写真=右)
photo 音声認識技術のロードマップ

 鈴木氏は、音声認識技術のロードマップについて「第1世代:単語認識(1960年〜)」「第2世代:文章認識(1991年〜)」「第3世代:人主体の認識(2001年〜)」「第4世代:ユビキタス(2008年〜)」「第5世代:超音声認識(2011年〜)」の5世代に分けられると説明。音声認識技術の黎明期である第1〜第2世代の頃は「カーナビなどをはじめ、機械が主体となっており、技術はすごいがビジネスになっていなかった」という。

 鈴木氏は「機械が王様で話す方が奴隷では、人はお金を払わない。人主体のサービスを作ればビジネスになる」と考え、第3世代の音声認識技術として「AmiVoice」を開発した。その中で同社が注力したのが、先述した文章の認識だ。だが、同じ意味の文章でも、ユーザーの年齢や性別、居住地(出身地)、性格などによってさまざまな言い回しが存在する。AmiVoiceはこうした言葉の“ゆらぎ”にも対応しており、不特定話者の言葉も認識できる。同じ言葉でもイントネーションが違ったり、歌うように発声しても認識する。「ここまでの認識精度は、世界的に見ても我々しか実現できない」と鈴木氏は胸を張る。

photophoto AmiVoiceを利用した電子カルテの入力画面。専門用語も音声で正確に入力されていく

 とはいえ、音声よりも(PCの)キーボードとマウスの方が素早く入力できることも多い。そこで鈴木氏は、音声入力を優位に展開すべく、キーボードとマウスのない世界である“モバイル”に着目した。同社は携帯向けの高度な音声認識技術として、デバイスとサーバに分割した音声認識システム「分散型音声認識技術(DSR)」を開発。DSRでは、端末に入力された音声データを、パケット通信でサーバに送信することで、従来の技術よりも音声の劣化が少なく、高精度の音声認識を可能にした。

photophoto 分散型音声認識技術(DSR)を利用することで、高精度な音声認識が可能になる(写真=左)。AmiVoiceエンジンの音声認識デコーダは「音響モデル」「辞書」「言語モデル」の3つのデータベースを備えている(写真=右)

携帯やPCと会話ができる「超音声認識」も登場する

 アドバンスト・メディアは2009年3月から2011年3月までのロードマップを「フェーズ1(2009年3月期)」「フェーズ2(2010年3月期)」「フェーズ3(2011年3月期)」に分けている。「フェーズ1では想定以上の成果を得られた。現在取り組んでいるフェーズ2ではフェーズ1の事業を拡張し、“声が価値を生み出すサービス”を目指す」(鈴木氏)。その中でも基点となるサービスが、携帯向けの「音声入力メール」だ。

 「これまでは(医療や教育など)不特定話者の領域を特化することでビジネスを成功させてきたが、音声入力メールでは領域を特化せず、汎用的なモデルを作ることに成功した」と鈴木氏は説明。音声入力メールが同社のビジネスの転機になったことを示した。

 そして2011年以降の第3フェーズでは“あふれる声をデータ化するサービス事業”として、ライセンス販売からサービス利用料を徴収するビジネスを目指す。ここでは第5世代の音声認識技術として「超音声認識」が登場する見込みだ。「第5世代は常識を超えた世界。人間の力を借りずに対話ができる“擬人化”ができる」という。

photophotophoto アドバンスト・メディアのロードマップはフェーズ1からフェーズ3までが想定されている(写真=左)。フェーズ3では、プラットフォームを提供して利用料を徴収することで、収益の拡大を目指す(写真=中)。AmiVoiceを提供する市場規模の予測(写真=右)

 例えば、PCや携帯の画面に表示されたキャラクターと会話を楽しんだり、Webサイトでの調べ物やチケットの予約をしたりという具合に、音声を用いたコンシェルジュサービスを利用できる。「すでに開発の“はしり”は進んでいる」(鈴木氏)とのことで、新たなエージェントサービスとして導入されることが期待される。

photophotophoto 説明会では、試作段階のキャラクターを使ってエージェントサービスのデモが実施された。自分の生年月日を教えると占ってくれたり、好きな食べ物を教えてくれたりする
photophoto 「『ライオンキング』について調べたい」と話すと、ライオンキングの公式サイトに自動でアクセスするほか、チケット予約についても案内してくれる

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年06月10日 更新
  1. iOS 27は「iPhone 11」以降で利用可能 iOS 26から据え置きで過去最大のiPhoneに対応 (2026年06月09日)
  2. あなたの街の「スマホ決済」キャンペーンまとめ【6月版】〜PayPay、d払い、au PAY、楽天ペイ (2026年06月08日)
  3. 「iOS 27」はアプリの起動速度が30%高速、最適な通信切り替えも iPhone 11やiPhone SE(第2世代)も対応 (2026年06月09日)
  4. 次世代の「Siri AI」発表 ユーザーを理解した応答が可能、表現力も向上 26年後半に英語から対応 (2026年06月09日)
  5. 「それ、家じゃダメなの?」──スタバ長時間滞在に冷ややかな目 “スマホ操作”に“PCで仕事”も (2026年06月07日)
  6. ソフトバンクが「今回もやる」とGalaxy S26を月額1円で販売――販売方法を早急に見直さないと撤退を迫られるメーカーも (2026年03月08日)
  7. iOS 27では「子ども用アカウント」を作成可能に 成人向けサイトの制限やつながる相手の管理も (2026年06月09日)
  8. 【ワークマン】1900円の「アーバンマルチストレージトート」 ポーチ代わりになるポケット付き (2026年06月09日)
  9. WWDCで「折りたたみiPhone」に言及なしも、Apple版「大画面×AI」に期待できるワケ (2026年06月09日)
  10. Rakuten Link、着信拒否とRCSを頑なに拒否――楽天経済圏スーパーアプリはユーザーを置いてきぼりか (2026年06月07日)
最新トピックスPR

過去記事カレンダー