メディア

機械と対話できる日は来るのか　アドバンスト・メディアに聞く、音声認識の課題と可能性：特集・音声言語インタフェース最前線（1/3 ページ）

» 2018年04月06日 06時00分公開

　ここ最近、「音声認識」を使った操作方法が注目を集めている。スマートフォンで代表的なものが、Appleの「Siri」とGoogleの「Google Assistant」だ。いずれも、スマホに話し掛けることで天気を確認したり、ネットで調べ物をしたりできる。最近は「Pepper」「ロボホン」などのコミュニケーションロボットや、「Google Home」「Amazon Echo」をはじめとしたスマートスピーカーも増えており、こちらはスマホと違って音声操作が主要なインタフェースだ。

スマートフォンやスマートスピーカーなどに話し掛けて操作する機会が増えた（写真はiPhoneのSiri）

　では、現在の音声認識技術は、どのレベルまで発達しているのだろうか。私たちがスマートフォンやロボットと友達のように会話できる日は来るのだろうか。約20年にわたって音声認識エンジンを手掛けるアドバンスト・メディアに話を聞いた。インタビューに応じていただいたのは、執行役員副本部長の坂口毅雄氏。

ディープラーニングで音声認識の精度は上がっている

　アドバンスト・メディアが手掛ける音声認識エンジン「AmiVoice」は、スマートフォンの音声操作、医療現場のカルテや診断書作成、コールセンター通話の文字化、会議の議事録作成、製造や物流現場でのハンズフリー入力など、さまざまなシーンで活用されており、音声認識エンジンのライセンスで国内シェアトップを誇る。モバイル分野で身近なところでは、「NAVITIME」や「ロボホン」の音声操作にはAmiVoiceが使われている。

AmiVoiceが採用された「ロボホン」

アドバンスト・メディアの坂口毅雄氏

　2009年に同社を取材した時、2011年からは第5世代の音声認識技術として「超音声認識」が始まると鈴木清幸会長兼社長が述べていたが、2018年になった今、実際はどのフェーズにいるのか。また、アドバンスト・メディアは音声認識発達のためにどのような取り組みを行っているのか。

　坂口氏は「技術の面で言うと、2010年頃は未成熟でしたが、3年ほど前から、ディープラーニングを使うことで、アドバンスト・メディアに限らず、業界全体で音声認識の精度は格段に上がっています」と話す。実際、アドバンスト・メディアでもAmiVoiceの品質が評価されて売り上げが伸びているという。

　「SiriやGoogleの音声検索や当社の音声認識エンジンAmiVoiceが搭載されている無料のアプリケーションも増え、手軽に音声認識を利用できる時代になりました。その結果、認知度が向上し、『ビジネスでも使える』と感じていただき、お客さまからの問い合わせが増えています。今は音声認識の導入期で、今後さらに拡大することは間違いないと感じています」と坂口氏は振り返る。

　例えば、授業や講演などで話者が話したことをリアルタイムでテキスト化する、シャムロック・レコードの「UDトーク」や、富士通の「LiveTalk」というソフトウェアにも、AmiVoiceが使われている。これは主に聴覚障害者を意識したもので、コンシューマーに加え、障害者雇用制度がある会社から、業務で使いたいという問い合わせも増えているそうだ。

リアルタイムで文字起こしができる「UDトーク」

　音声認識の課題の1つが「マイクの感度」だ。スマートフォンも端末によってマイクの感度は異なる他、少しでもうるさい環境だと周囲の声も拾ってしまい、正確な認識を阻害してしまう。そこで同社はウェアラブル型のマイクを開発。Bluetoothマイクの「AmiVoice Front WT01」（税別3万3000円）は、ストラップやクリップでマイクを話者に固定するので、話者の声だけを拾うことができる。ノイズを除去する技術も搭載しており、最大100dB以上の騒音環境でも使えるので、製造業など、ノイズ環境での業務に従事している企業からの引き合いが多い。

話者の声をより正確に拾えるBluetoothマイク「AmiVoice Front WT01」

GoogleやAppleとの違い

　音声認識エンジンは、さまざまなものが存在するが、AmiVoiceの優位性はどこにあるのか。「認識精度が高いというのもありますが、“本当に使われる言葉”からエンジンを作っていることです。弊社は、医療だけでも放射線、調剤薬局、クリニックなどの分野に特化したエンジンをたくさん持っています」（坂口氏）

　GoogleやAppleの音声認識にはAmiVoiceは使われておらず、ある種のライバルではあるが、「彼らとはビジネスモデルが違います」と坂口氏。「例えばGoogleは広告モデルで、検索してほしい一環の中で音声検索を提供しています。いろいろな方が話すので、（Googleに蓄積されるものは）声の大語彙（ごい）エンジンといわれています。ただ、語彙数が多いと間違える確率は高くなります。当社では大語彙エンジンの他に各事業領域に特化した専用辞書を保有しており、例えば、医療の放射線科用専用辞書だと、大語彙エンジンの10分の1ほどです。実際、Googleで音声検索をすると、専門用語が出てこないことが多くあります」

　さらに、AmiVoiceを使ったサービスには「単語登録機能」も利用できる。例えば先ほど紹介した「WT01」などの製品型番は一発で認識しにくい。そこで、例えば「だぶりゅーてぃー」などと言えば「WT01」が入力されるよう事前に設定できる。この機能は、アドバンスト・メディアが3月からiOS向けに配信している音声入力キーボードアプリ「AmiVoice SBx」にも搭載している。地味な部分かもしれないが、こうした工夫もトータルでの利便性向上につながっている。

機械と対話できる日はいつ来る？

ビジネス文書作成に特化　iOS向け音声入力アプリ「AmiVoice SBx」
アドバンスト・メディアは、3月6日にiOS向け音声入力キーボードアプリ「AmiVoice SBx」をリリースした。アプリを問わずマイクに向かって話すだけでビジネス文書を作成でき、文字変換を指定する単語登録機能や定型文登録などのカスタマイズ機能も備えている。
PC連携で文字検索も可能　音声入力メモアプリ「AmiVoice iVoX Personal」iOS版が登場
アドバンスト・メディアは、1月11日に音声入力メモアプリ「AmiVoice iVoX Personal」のiOS版を配信開始した。最新の音声認識エンジンにより高い認識率を誇り、スマートフォンとPCで音声・文字・写真データの連携管理が行える。
Googleは競争相手ではない？――B to Bと多言語化に注力するアドバンスト・メディア
モバイル分野ではこれまでコンシューマー向けに音声認識サービスを提供してきたアドバンスト・メディアが、今後は法人向け業務アプリの開発にも注力する。また、iOSだけでなく、AndroidやWindows Phone 7向けアプリも開発していく。
音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来
アドバンスト・メディアは、同社の音声認識技術「AmiVoice」を用いた幅広いサービスを展開している。同社が目指すのは、これまでの「機械中心」だった音声認識を超える「人間中心」のサービスだ。一方で、iPhoneやAndroid端末などモバイル分野にも注力していく。
「文字検索は面倒」も「人前での音声検索は恥ずかしい」が約7割　KDDIの音声操作に対する意識調査
KDDIは「日本人の音声操作に対する意識調査2017」の結果を発表。文字入力による検索は半数近くが「面倒」と回答するも、音声でのインターネット検索を人前で行うのは「恥ずかしい」が7割を超えている。

　　　　　　 1|2|3 次のページへ

SpecialPR

アクセストップ10

2026年02月21日更新

「Pixel 10a」は何が進化した？　「Pixel 9a」「Pixel 10」とスペックを比較　“aシリーズ初”の機能も（2026年02月19日）
「Google Pixel 10a」発表　ディスプレイを強化、アウトカメラがフラットに　4色を実機でチェック（2026年02月19日）
ドコモが「いつでもカエドキプログラム」改定　残価免除に最大2.2万円、ドコモで買い替えなら免除（2026年02月19日）
「Appleよ、これが『Air』の正解だ」　HONORから「Magic8 Pro Air」登場（2026年02月18日）
ガストの「テーブル決済」をPayPayで試してみた　便利だけど思わぬワナも（2024年04月14日）
povo2.0の「サブスクトッピング」はどれだけお得？　ahamoやLINEMOと比較　安く使うなら“長期”もアリ（2026年02月20日）
ガストで人を介さず「テーブル決済」、食い逃げ対策はあるのか？　すかいらーくに聞いた安心の仕組み（2026年02月21日）
「Suicaのペンギン」卒業騒動にまつわる背景と誤解　JR東日本に聞いた（2025年11月14日）
「ジェミニ」か「ジェミナイ」──Geminiの正しい読み方は？　Google Japanが改めて告知（2026年01月21日）
iOSとAndroidで「eSIMクイック転送」がついに解禁　iPhoneとPixelで検証、OSの壁はなぜ越えられた？（2026年02月21日）

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2026年

2月
1月

2025年

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

2002年

2001年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。

機械と対話できる日は来るのか アドバンスト・メディアに聞く、音声認識の課題と可能性：特集・音声言語インタフェース最前線（1/3 ページ）