メディア

常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性

» 2009年08月21日 21時58分公開

[田中聡，ITmedia]

　音声認識技術を開発しているアドバンスト・メディアが8月21日、技術・戦略説明会を開催。同社の音声認識技術「AmiVoice」の優位性や、ビジネスのロードマップについて説明した。

　アドバンスト・メディアは日本国内唯一の音声認識専門企業として1997年に創立。次世代音声認識技術のAmiVoiceを開発し、医療やモバイル、コールセンター、議会議事録、英語教育など、さまざまな分野で音声認識ソリューションを提供してきた。モバイルの分野では、「らくらくホンプレミアム」「らくらくホンベーシックII」「らくらくホン6」の「音声入力メール」や、iPhone向けの「音声認識メール」、NTTドコモ向けの「声ちぇき！DX」「乗換案内NEXT」などにAmiVoiceを提供している（アドバンスト・メディアの関連記事一覧も参照）。

アドバンスト・メディアの概要（写真＝左）。アドバンスト・メディア代表取締役社長長谷川一行氏（写真＝右）。「音声認識市場の立ち上げは苦戦したが、第一線の企業に使っていただいている。携帯は個人向けだけでなく、企業のプラットフォームにも展開していきたい」

アドバンスト・メディアの第13期第1四半期業績（写真＝左）。同社のプロダクト部門（写真＝中）とソリューション部門（写真＝右）の実績

機械が王様で人間が奴隷では、人はお金を払わない

アドバンスト・メディア代表取締役会長鈴木清幸氏

　音声認識技術は同社のほかにNUANCEやSpinVoxなどの企業も開発しているが、「AmiVoiceの優位性は文章を認識できること」だと同社代表取締役の鈴木清幸氏は話す。「単語レベルで音声を認識できるサービスはほかにもあるが、世界的に見て文章を認識できるのはAmiVoiceだけ。AmiVoiceはマイクと電話回線の入力に対応しているほか、ディクテーション（書き取り）や単語認識もできる」と鈴木氏は自信を見せる。

　アドバンスト・メディアのビジョンは「機械との自然なコミュニケーションを実現して社会に貢献すること、つまり人が機械に向けて自然に話しかけて目的がかなうこと」だと鈴木氏は説明する。そのキーコンセプトとなる言葉が“JUI”だ。JUIは「Joyful（楽しい）」「Useful（役に立つ、便利）」「Indispensable（なくてはならいもの）」の頭文字を取った造語。

　「これまでは、企業やユーザーが（我々の技術に対して）拍手はしてくれるが、なかなか導入してくれなかった。うまく導入してもらうには、“Joyful”と“Useful”のどちらかが必要になる。企業とユーザーの両方にサービスを展開するにあたり、これ（JUI）がビジョンの実現に近づく1つの手段だと考えている」と鈴木氏は狙いを明かす。

AmiVoiceの特徴（写真＝左）。アドバンスト・メディアは「JUI」をコンセプトとして音声認識技術を提供する（写真＝右）

音声認識技術のロードマップ

　鈴木氏は、音声認識技術のロードマップについて「第1世代：単語認識（1960年～）」「第2世代：文章認識（1991年～）」「第3世代：人主体の認識（2001年～）」「第4世代：ユビキタス（2008年～）」「第5世代：超音声認識（2011年～）」の5世代に分けられると説明。音声認識技術の黎明期である第1～第2世代の頃は「カーナビなどをはじめ、機械が主体となっており、技術はすごいがビジネスになっていなかった」という。

　鈴木氏は「機械が王様で話す方が奴隷では、人はお金を払わない。人主体のサービスを作ればビジネスになる」と考え、第3世代の音声認識技術として「AmiVoice」を開発した。その中で同社が注力したのが、先述した文章の認識だ。だが、同じ意味の文章でも、ユーザーの年齢や性別、居住地（出身地）、性格などによってさまざまな言い回しが存在する。AmiVoiceはこうした言葉の“ゆらぎ”にも対応しており、不特定話者の言葉も認識できる。同じ言葉でもイントネーションが違ったり、歌うように発声しても認識する。「ここまでの認識精度は、世界的に見ても我々しか実現できない」と鈴木氏は胸を張る。

AmiVoiceを利用した電子カルテの入力画面。専門用語も音声で正確に入力されていく

　とはいえ、音声よりも（PCの）キーボードとマウスの方が素早く入力できることも多い。そこで鈴木氏は、音声入力を優位に展開すべく、キーボードとマウスのない世界である“モバイル”に着目した。同社は携帯向けの高度な音声認識技術として、デバイスとサーバに分割した音声認識システム「分散型音声認識技術（DSR）」を開発。DSRでは、端末に入力された音声データを、パケット通信でサーバに送信することで、従来の技術よりも音声の劣化が少なく、高精度の音声認識を可能にした。

分散型音声認識技術（DSR）を利用することで、高精度な音声認識が可能になる（写真＝左）。AmiVoiceエンジンの音声認識デコーダは「音響モデル」「辞書」「言語モデル」の3つのデータベースを備えている（写真＝右）

携帯やPCと会話ができる「超音声認識」も登場する

　アドバンスト・メディアは2009年3月から2011年3月までのロードマップを「フェーズ1（2009年3月期）」「フェーズ2（2010年3月期）」「フェーズ3（2011年3月期）」に分けている。「フェーズ1では想定以上の成果を得られた。現在取り組んでいるフェーズ2ではフェーズ1の事業を拡張し、“声が価値を生み出すサービス”を目指す」（鈴木氏）。その中でも基点となるサービスが、携帯向けの「音声入力メール」だ。

　「これまでは（医療や教育など）不特定話者の領域を特化することでビジネスを成功させてきたが、音声入力メールでは領域を特化せず、汎用的なモデルを作ることに成功した」と鈴木氏は説明。音声入力メールが同社のビジネスの転機になったことを示した。

　そして2011年以降の第3フェーズでは“あふれる声をデータ化するサービス事業”として、ライセンス販売からサービス利用料を徴収するビジネスを目指す。ここでは第5世代の音声認識技術として「超音声認識」が登場する見込みだ。「第5世代は常識を超えた世界。人間の力を借りずに対話ができる“擬人化”ができる」という。

アドバンスト・メディアのロードマップはフェーズ1からフェーズ3までが想定されている（写真＝左）。フェーズ3では、プラットフォームを提供して利用料を徴収することで、収益の拡大を目指す（写真＝中）。AmiVoiceを提供する市場規模の予測（写真＝右）

　例えば、PCや携帯の画面に表示されたキャラクターと会話を楽しんだり、Webサイトでの調べ物やチケットの予約をしたりという具合に、音声を用いたコンシェルジュサービスを利用できる。「すでに開発の“はしり”は進んでいる」（鈴木氏）とのことで、新たなエージェントサービスとして導入されることが期待される。

説明会では、試作段階のキャラクターを使ってエージェントサービスのデモが実施された。自分の生年月日を教えると占ってくれたり、好きな食べ物を教えてくれたりする

「『ライオンキング』について調べたい」と話すと、ライオンキングの公式サイトに自動でアクセスするほか、チケット予約についても案内してくれる

キーボードの代わりにiPhoneに話かけて文章入力をする「音声認識メール」
ドコモの「らくらくホン」シリーズにも採用されている音声認識エンジンが、無料のiPhoneアプリとして登場しました。認識された文字列はメールで送信できるため、iPhoneでの文字入力が苦手な人にもお勧めです。
声で文章作成──らくらくホンプレミアムの「音声入力メール」を試す
国内の携帯として初めて、音声で文字を入力できる「音声入力メール」機能を搭載するらくらくホンプレミアム。「意外に使えるぞ──」と思える、この機能のコツを富士通のらくらくホンプレミアム担当者に聞きながら試してみた。
第2回　声に反応する「直感ゲーム」でモノマネや相性占いって!？――ゲスト：小林裕美さん
NTTドコモのコンテンツ担当部長である原田由佳氏が、素敵なゲストとモバイルコンテンツについて語るコーナー第2回目。今回のテーマも前回に引き続き、音に反応する「直感ゲーム」。10代目ミニスカポリスで、現在は2児の母ながらグラビア活動中のグラママ、小林裕美さんと直感ゲームで盛り上がった。
あなたの声、誰に似てる？　ケータイで「声ちぇき！」
アドバンスト・メディアの音声認証技術を利用した「声ちぇき！」が登場。ケータイで音声を吹き込むと、声が似ている芸能人が分かる。
「らくらくホンIV」の“話して目的地検索”にアドバンスト・メディアの音声認識技術
GPS搭載の「らくらくホンIV」に搭載された、目的地を話して検索する機能に、アドバンスト・メディアの音声認識技術「AmiVoice」が採用された。

アクセストップ10

2025年12月22日更新

「iPhone Air」減産報道の裏側　“薄さ”はスマホの進化を止める壁になるのか（2025年12月21日）
大きな病院ではメリットが大きい「マイナ保険証」　業務の効率化に寄与（2025年12月20日）
「ドコモSMTBネット銀行」で何が変わる？　ドコモのサービス連携でdポイントがお得にたまり、解約抑止につなげる（2025年12月20日）
シャープのAIロボ「ポケとも」と暮らしてみた　スマホよりも自然に会話ができる“もう1人の家族”だ（2025年12月22日）
【2025年1月を振り返る】怪しいモバイルバッテリーを見破るには？（2025年12月21日）
ソフトバンクのネットワークはなぜ快適なのか――「寄せ集め」から、TDDを生かしたC-RAN構成に進化（2025年12月21日）
「スマホ新法」を巡るAppleとGoogleの動き　App Storeの競争力が上がる一方で“iOSのGoogle化”が進む？（2025年12月20日）
Hasselbladとのコラボが終了、OnePlusは再びハイエンドを目指す（2025年12月21日）
なぜ？　U-NEXTが自ら「U-NEXT MOBILE」を立ち上げた理由　20GB実質300円、ワンプラン、eSIMのみの狙い（2025年12月17日）
【ダイソー】1100円の「ワイヤレスチャージャーマウスパッド」　最大出力10Wで充電できる（2025年12月21日）

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2025年

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。