常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性

» 2009年08月21日 21時58分 公開
[田中聡,ITmedia]

 音声認識技術を開発しているアドバンスト・メディアが8月21日、技術・戦略説明会を開催。同社の音声認識技術「AmiVoice」の優位性や、ビジネスのロードマップについて説明した。

 アドバンスト・メディアは日本国内唯一の音声認識専門企業として1997年に創立。次世代音声認識技術のAmiVoiceを開発し、医療やモバイル、コールセンター、議会議事録、英語教育など、さまざまな分野で音声認識ソリューションを提供してきた。モバイルの分野では、「らくらくホン プレミアム」「らくらくホン ベーシックII」「らくらくホン6」の「音声入力メール」や、iPhone向けの「音声認識メール」、NTTドコモ向けの「声ちぇき!DX」「乗換案内NEXT」などにAmiVoiceを提供している(アドバンスト・メディアの関連記事一覧も参照)。

photophoto アドバンスト・メディアの概要(写真=左)。アドバンスト・メディア 代表取締役社長 長谷川一行氏(写真=右)。「音声認識市場の立ち上げは苦戦したが、第一線の企業に使っていただいている。携帯は個人向けだけでなく、企業のプラットフォームにも展開していきたい」
photophotophoto アドバンスト・メディアの第13期第1四半期業績(写真=左)。同社のプロダクト部門(写真=中)とソリューション部門(写真=右)の実績

機械が王様で人間が奴隷では、人はお金を払わない

photo アドバンスト・メディア 代表取締役会長 鈴木清幸氏

 音声認識技術は同社のほかにNUANCEやSpinVoxなどの企業も開発しているが、「AmiVoiceの優位性は文章を認識できること」だと同社代表取締役の鈴木清幸氏は話す。「単語レベルで音声を認識できるサービスはほかにもあるが、世界的に見て文章を認識できるのはAmiVoiceだけ。AmiVoiceはマイクと電話回線の入力に対応しているほか、ディクテーション(書き取り)や単語認識もできる」と鈴木氏は自信を見せる。

 アドバンスト・メディアのビジョンは「機械との自然なコミュニケーションを実現して社会に貢献すること、つまり人が機械に向けて自然に話しかけて目的がかなうこと」だと鈴木氏は説明する。そのキーコンセプトとなる言葉が“JUI”だ。JUIは「Joyful(楽しい)」「Useful(役に立つ、便利)」「Indispensable(なくてはならいもの)」の頭文字を取った造語。

 「これまでは、企業やユーザーが(我々の技術に対して)拍手はしてくれるが、なかなか導入してくれなかった。うまく導入してもらうには、“Joyful”と“Useful”のどちらかが必要になる。企業とユーザーの両方にサービスを展開するにあたり、これ(JUI)がビジョンの実現に近づく1つの手段だと考えている」と鈴木氏は狙いを明かす。

photophoto AmiVoiceの特徴(写真=左)。アドバンスト・メディアは「JUI」をコンセプトとして音声認識技術を提供する(写真=右)
photo 音声認識技術のロードマップ

 鈴木氏は、音声認識技術のロードマップについて「第1世代:単語認識(1960年〜)」「第2世代:文章認識(1991年〜)」「第3世代:人主体の認識(2001年〜)」「第4世代:ユビキタス(2008年〜)」「第5世代:超音声認識(2011年〜)」の5世代に分けられると説明。音声認識技術の黎明期である第1〜第2世代の頃は「カーナビなどをはじめ、機械が主体となっており、技術はすごいがビジネスになっていなかった」という。

 鈴木氏は「機械が王様で話す方が奴隷では、人はお金を払わない。人主体のサービスを作ればビジネスになる」と考え、第3世代の音声認識技術として「AmiVoice」を開発した。その中で同社が注力したのが、先述した文章の認識だ。だが、同じ意味の文章でも、ユーザーの年齢や性別、居住地(出身地)、性格などによってさまざまな言い回しが存在する。AmiVoiceはこうした言葉の“ゆらぎ”にも対応しており、不特定話者の言葉も認識できる。同じ言葉でもイントネーションが違ったり、歌うように発声しても認識する。「ここまでの認識精度は、世界的に見ても我々しか実現できない」と鈴木氏は胸を張る。

photophoto AmiVoiceを利用した電子カルテの入力画面。専門用語も音声で正確に入力されていく

 とはいえ、音声よりも(PCの)キーボードとマウスの方が素早く入力できることも多い。そこで鈴木氏は、音声入力を優位に展開すべく、キーボードとマウスのない世界である“モバイル”に着目した。同社は携帯向けの高度な音声認識技術として、デバイスとサーバに分割した音声認識システム「分散型音声認識技術(DSR)」を開発。DSRでは、端末に入力された音声データを、パケット通信でサーバに送信することで、従来の技術よりも音声の劣化が少なく、高精度の音声認識を可能にした。

photophoto 分散型音声認識技術(DSR)を利用することで、高精度な音声認識が可能になる(写真=左)。AmiVoiceエンジンの音声認識デコーダは「音響モデル」「辞書」「言語モデル」の3つのデータベースを備えている(写真=右)

携帯やPCと会話ができる「超音声認識」も登場する

 アドバンスト・メディアは2009年3月から2011年3月までのロードマップを「フェーズ1(2009年3月期)」「フェーズ2(2010年3月期)」「フェーズ3(2011年3月期)」に分けている。「フェーズ1では想定以上の成果を得られた。現在取り組んでいるフェーズ2ではフェーズ1の事業を拡張し、“声が価値を生み出すサービス”を目指す」(鈴木氏)。その中でも基点となるサービスが、携帯向けの「音声入力メール」だ。

 「これまでは(医療や教育など)不特定話者の領域を特化することでビジネスを成功させてきたが、音声入力メールでは領域を特化せず、汎用的なモデルを作ることに成功した」と鈴木氏は説明。音声入力メールが同社のビジネスの転機になったことを示した。

 そして2011年以降の第3フェーズでは“あふれる声をデータ化するサービス事業”として、ライセンス販売からサービス利用料を徴収するビジネスを目指す。ここでは第5世代の音声認識技術として「超音声認識」が登場する見込みだ。「第5世代は常識を超えた世界。人間の力を借りずに対話ができる“擬人化”ができる」という。

photophotophoto アドバンスト・メディアのロードマップはフェーズ1からフェーズ3までが想定されている(写真=左)。フェーズ3では、プラットフォームを提供して利用料を徴収することで、収益の拡大を目指す(写真=中)。AmiVoiceを提供する市場規模の予測(写真=右)

 例えば、PCや携帯の画面に表示されたキャラクターと会話を楽しんだり、Webサイトでの調べ物やチケットの予約をしたりという具合に、音声を用いたコンシェルジュサービスを利用できる。「すでに開発の“はしり”は進んでいる」(鈴木氏)とのことで、新たなエージェントサービスとして導入されることが期待される。

photophotophoto 説明会では、試作段階のキャラクターを使ってエージェントサービスのデモが実施された。自分の生年月日を教えると占ってくれたり、好きな食べ物を教えてくれたりする
photophoto 「『ライオンキング』について調べたい」と話すと、ライオンキングの公式サイトに自動でアクセスするほか、チケット予約についても案内してくれる

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年04月09日 更新
  1. コンセントに挿すだけで見守れる「Wi-Fiセンシングプラグ」発売 人感センサーよりも広範囲に検知 (2026年04月07日)
  2. メルカリで詐欺に遭った話 不誠実な事務局の対応、ユーザーが「絶対にやってはいけない」こと (2025年04月27日)
  3. 「Google Pixel 10a」を実質3万9800円で入手する方法 先代「Pixel 9a」から“値上げしなかった”理由 (2026年04月07日)
  4. 「任天堂3DSの未使用品、素手で触るなよ」――中古店による「素手持ち」写真が物議 商品ランクの定義とは? (2026年04月07日)
  5. PayPay、5月以降に4自治体でプレミアム付き商品券を提供 最大2万円おトク (2026年04月08日)
  6. 「Google Pixel 10a」はどこが安い? 一括価格と2年間の実質負担額を比較、お得なキャリアはココだ (2026年04月08日)
  7. ソフトバンクが「今回もやる」とGalaxy S26を月額1円で販売――販売方法を早急に見直さないと撤退を迫られるメーカーも (2026年03月08日)
  8. Android 15搭載11.97型タブレット「アイリスオーヤマ 12型タブレット TM12E2W74-AZ1B」が19%オフの2万3800円に (2026年04月08日)
  9. 依然として人気の高い「iPhone SE(第3世代)」、2万円台のお手頃価格も魅力 Back Marketの販売ランキング (2026年04月07日)
  10. iPhoneの「衛星経由のSOS」って誰が使えるの? (2026年04月08日)
最新トピックスPR

過去記事カレンダー

2026年