機械と対話できる日は来るのか　アドバンスト・メディアに聞く、音声認識の課題と可能性：特集・音声言語インタフェース最前線（1/3 ページ）

「音声認識」がクローズアップされることが増えた。音声認識が主な操作法であるスマートスピーカーやロボットも登場している。では、現在の音声認識技術は、どのレベルまで到達しているのか。アドバンスト・メディアに話を聞いた。

LINE

Hatena

　ここ最近、「音声認識」を使った操作方法が注目を集めている。スマートフォンで代表的なものが、Appleの「Siri」とGoogleの「Google Assistant」だ。いずれも、スマホに話し掛けることで天気を確認したり、ネットで調べ物をしたりできる。最近は「Pepper」「ロボホン」などのコミュニケーションロボットや、「Google Home」「Amazon Echo」をはじめとしたスマートスピーカーも増えており、こちらはスマホと違って音声操作が主要なインタフェースだ。

スマートフォンやスマートスピーカーなどに話し掛けて操作する機会が増えた（写真はiPhoneのSiri）

　では、現在の音声認識技術は、どのレベルまで発達しているのだろうか。私たちがスマートフォンやロボットと友達のように会話できる日は来るのだろうか。約20年にわたって音声認識エンジンを手掛けるアドバンスト・メディアに話を聞いた。インタビューに応じていただいたのは、執行役員副本部長の坂口毅雄氏。

ディープラーニングで音声認識の精度は上がっている

　アドバンスト・メディアが手掛ける音声認識エンジン「AmiVoice」は、スマートフォンの音声操作、医療現場のカルテや診断書作成、コールセンター通話の文字化、会議の議事録作成、製造や物流現場でのハンズフリー入力など、さまざまなシーンで活用されており、音声認識エンジンのライセンスで国内シェアトップを誇る。モバイル分野で身近なところでは、「NAVITIME」や「ロボホン」の音声操作にはAmiVoiceが使われている。

AmiVoiceが採用された「ロボホン」

アドバンスト・メディアの坂口毅雄氏

　2009年に同社を取材した時、2011年からは第5世代の音声認識技術として「超音声認識」が始まると鈴木清幸会長兼社長が述べていたが、2018年になった今、実際はどのフェーズにいるのか。また、アドバンスト・メディアは音声認識発達のためにどのような取り組みを行っているのか。

　坂口氏は「技術の面で言うと、2010年頃は未成熟でしたが、3年ほど前から、ディープラーニングを使うことで、アドバンスト・メディアに限らず、業界全体で音声認識の精度は格段に上がっています」と話す。実際、アドバンスト・メディアでもAmiVoiceの品質が評価されて売り上げが伸びているという。

　「SiriやGoogleの音声検索や当社の音声認識エンジンAmiVoiceが搭載されている無料のアプリケーションも増え、手軽に音声認識を利用できる時代になりました。その結果、認知度が向上し、『ビジネスでも使える』と感じていただき、お客さまからの問い合わせが増えています。今は音声認識の導入期で、今後さらに拡大することは間違いないと感じています」と坂口氏は振り返る。

　例えば、授業や講演などで話者が話したことをリアルタイムでテキスト化する、シャムロック・レコードの「UDトーク」や、富士通の「LiveTalk」というソフトウェアにも、AmiVoiceが使われている。これは主に聴覚障害者を意識したもので、コンシューマーに加え、障害者雇用制度がある会社から、業務で使いたいという問い合わせも増えているそうだ。

リアルタイムで文字起こしができる「UDトーク」

　音声認識の課題の1つが「マイクの感度」だ。スマートフォンも端末によってマイクの感度は異なる他、少しでもうるさい環境だと周囲の声も拾ってしまい、正確な認識を阻害してしまう。そこで同社はウェアラブル型のマイクを開発。Bluetoothマイクの「AmiVoice Front WT01」（税別3万3000円）は、ストラップやクリップでマイクを話者に固定するので、話者の声だけを拾うことができる。ノイズを除去する技術も搭載しており、最大100dB以上の騒音環境でも使えるので、製造業など、ノイズ環境での業務に従事している企業からの引き合いが多い。

話者の声をより正確に拾えるBluetoothマイク「AmiVoice Front WT01」

GoogleやAppleとの違い

　音声認識エンジンは、さまざまなものが存在するが、AmiVoiceの優位性はどこにあるのか。「認識精度が高いというのもありますが、“本当に使われる言葉”からエンジンを作っていることです。弊社は、医療だけでも放射線、調剤薬局、クリニックなどの分野に特化したエンジンをたくさん持っています」（坂口氏）

　GoogleやAppleの音声認識にはAmiVoiceは使われておらず、ある種のライバルではあるが、「彼らとはビジネスモデルが違います」と坂口氏。「例えばGoogleは広告モデルで、検索してほしい一環の中で音声検索を提供しています。いろいろな方が話すので、（Googleに蓄積されるものは）声の大語彙（ごい）エンジンといわれています。ただ、語彙数が多いと間違える確率は高くなります。当社では大語彙エンジンの他に各事業領域に特化した専用辞書を保有しており、例えば、医療の放射線科用専用辞書だと、大語彙エンジンの10分の1ほどです。実際、Googleで音声検索をすると、専門用語が出てこないことが多くあります」

　さらに、AmiVoiceを使ったサービスには「単語登録機能」も利用できる。例えば先ほど紹介した「WT01」などの製品型番は一発で認識しにくい。そこで、例えば「だぶりゅーてぃー」などと言えば「WT01」が入力されるよう事前に設定できる。この機能は、アドバンスト・メディアが3月からiOS向けに配信している音声入力キーボードアプリ「AmiVoice SBx」にも搭載している。地味な部分かもしれないが、こうした工夫もトータルでの利便性向上につながっている。

機械と対話できる日はいつ来る？

　　　　　　 | 次のページへ

ビジネス文書作成に特化　iOS向け音声入力アプリ「AmiVoice SBx」
アドバンスト・メディアは、3月6日にiOS向け音声入力キーボードアプリ「AmiVoice SBx」をリリースした。アプリを問わずマイクに向かって話すだけでビジネス文書を作成でき、文字変換を指定する単語登録機能や定型文登録などのカスタマイズ機能も備えている。
PC連携で文字検索も可能　音声入力メモアプリ「AmiVoice iVoX Personal」iOS版が登場
アドバンスト・メディアは、1月11日に音声入力メモアプリ「AmiVoice iVoX Personal」のiOS版を配信開始した。最新の音声認識エンジンにより高い認識率を誇り、スマートフォンとPCで音声・文字・写真データの連携管理が行える。
Googleは競争相手ではない？――B to Bと多言語化に注力するアドバンスト・メディア
モバイル分野ではこれまでコンシューマー向けに音声認識サービスを提供してきたアドバンスト・メディアが、今後は法人向け業務アプリの開発にも注力する。また、iOSだけでなく、AndroidやWindows Phone 7向けアプリも開発していく。
音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来
アドバンスト・メディアは、同社の音声認識技術「AmiVoice」を用いた幅広いサービスを展開している。同社が目指すのは、これまでの「機械中心」だった音声認識を超える「人間中心」のサービスだ。一方で、iPhoneやAndroid端末などモバイル分野にも注力していく。
「文字検索は面倒」も「人前での音声検索は恥ずかしい」が約7割　KDDIの音声操作に対する意識調査
KDDIは「日本人の音声操作に対する意識調査2017」の結果を発表。文字入力による検索は半数近くが「面倒」と回答するも、音声でのインターネット検索を人前で行うのは「恥ずかしい」が7割を超えている。

機械と対話できる日は来るのか アドバンスト・メディアに聞く、音声認識の課題と可能性：特集・音声言語インタフェース最前線（1/3 ページ）

ディープラーニングで音声認識の精度は上がっている

GoogleやAppleとの違い

関連記事

機械と対話できる日は来るのか　アドバンスト・メディアに聞く、音声認識の課題と可能性：特集・音声言語インタフェース最前線（1/3 ページ）