インタビュー
» 2018年04月06日 06時00分 公開

特集・音声言語インタフェース最前線:機械と対話できる日は来るのか アドバンスト・メディアに聞く、音声認識の課題と可能性 (1/3)

「音声認識」がクローズアップされることが増えた。音声認識が主な操作法であるスマートスピーカーやロボットも登場している。では、現在の音声認識技術は、どのレベルまで到達しているのか。アドバンスト・メディアに話を聞いた。

[田中聡,ITmedia]

 ここ最近、「音声認識」を使った操作方法が注目を集めている。スマートフォンで代表的なものが、Appleの「Siri」とGoogleの「Google Assistant」だ。いずれも、スマホに話し掛けることで天気を確認したり、ネットで調べ物をしたりできる。最近は「Pepper」「ロボホン」などのコミュニケーションロボットや、「Google Home」「Amazon Echo」をはじめとしたスマートスピーカーも増えており、こちらはスマホと違って音声操作が主要なインタフェースだ。

音声認識 スマートフォンやスマートスピーカーなどに話し掛けて操作する機会が増えた(写真はiPhoneのSiri)

 では、現在の音声認識技術は、どのレベルまで発達しているのだろうか。私たちがスマートフォンやロボットと友達のように会話できる日は来るのだろうか。約20年にわたって音声認識エンジンを手掛けるアドバンスト・メディアに話を聞いた。インタビューに応じていただいたのは、執行役員 副本部長の坂口毅雄氏。

ディープラーニングで音声認識の精度は上がっている

 アドバンスト・メディアが手掛ける音声認識エンジン「AmiVoice」は、スマートフォンの音声操作、医療現場のカルテや診断書作成、コールセンター通話の文字化、会議の議事録作成、製造や物流現場でのハンズフリー入力など、さまざまなシーンで活用されており、音声認識エンジンのライセンスで国内シェアトップを誇る。モバイル分野で身近なところでは、「NAVITIME」や「ロボホン」の音声操作にはAmiVoiceが使われている。

音声認識 AmiVoiceが採用された「ロボホン」
音声認識 アドバンスト・メディアの坂口毅雄氏

 2009年に同社を取材した時、2011年からは第5世代の音声認識技術として「超音声認識」が始まると鈴木清幸会長兼社長が述べていたが、2018年になった今、実際はどのフェーズにいるのか。また、アドバンスト・メディアは音声認識発達のためにどのような取り組みを行っているのか。

 坂口氏は「技術の面で言うと、2010年頃は未成熟でしたが、3年ほど前から、ディープラーニングを使うことで、アドバンスト・メディアに限らず、業界全体で音声認識の精度は格段に上がっています」と話す。実際、アドバンスト・メディアでもAmiVoiceの品質が評価されて売り上げが伸びているという。

 「SiriやGoogleの音声検索や当社の音声認識エンジンAmiVoiceが搭載されている無料のアプリケーションも増え、手軽に音声認識を利用できる時代になりました。その結果、認知度が向上し、『ビジネスでも使える』と感じていただき、お客さまからの問い合わせが増えています。今は音声認識の導入期で、今後さらに拡大することは間違いないと感じています」と坂口氏は振り返る。

 例えば、授業や講演などで話者が話したことをリアルタイムでテキスト化する、シャムロック・レコードの「UDトーク」や、富士通の「LiveTalk」というソフトウェアにも、AmiVoiceが使われている。これは主に聴覚障害者を意識したもので、コンシューマーに加え、障害者雇用制度がある会社から、業務で使いたいという問い合わせも増えているそうだ。

音声認識 リアルタイムで文字起こしができる「UDトーク」

 音声認識の課題の1つが「マイクの感度」だ。スマートフォンも端末によってマイクの感度は異なる他、少しでもうるさい環境だと周囲の声も拾ってしまい、正確な認識を阻害してしまう。そこで同社はウェアラブル型のマイクを開発。Bluetoothマイクの「AmiVoice Front WT01」(税別3万3000円)は、ストラップやクリップでマイクを話者に固定するので、話者の声だけを拾うことができる。ノイズを除去する技術も搭載しており、最大100dB以上の騒音環境でも使えるので、製造業など、ノイズ環境での業務に従事している企業からの引き合いが多い。

音声認識音声認識 話者の声をより正確に拾えるBluetoothマイク「AmiVoice Front WT01」

GoogleやAppleとの違い

 音声認識エンジンは、さまざまなものが存在するが、AmiVoiceの優位性はどこにあるのか。「認識精度が高いというのもありますが、“本当に使われる言葉”からエンジンを作っていることです。弊社は、医療だけでも放射線、調剤薬局、クリニックなどの分野に特化したエンジンをたくさん持っています」(坂口氏)

 GoogleやAppleの音声認識にはAmiVoiceは使われておらず、ある種のライバルではあるが、「彼らとはビジネスモデルが違います」と坂口氏。「例えばGoogleは広告モデルで、検索してほしい一環の中で音声検索を提供しています。いろいろな方が話すので、(Googleに蓄積されるものは)声の大語彙(ごい)エンジンといわれています。ただ、語彙数が多いと間違える確率は高くなります。当社では大語彙エンジンの他に各事業領域に特化した専用辞書を保有しており、例えば、医療の放射線科用専用辞書だと、大語彙エンジンの10分の1ほどです。実際、Googleで音声検索をすると、専門用語が出てこないことが多くあります」

 さらに、AmiVoiceを使ったサービスには「単語登録機能」も利用できる。例えば先ほど紹介した「WT01」などの製品型番は一発で認識しにくい。そこで、例えば「だぶりゅーてぃー」などと言えば「WT01」が入力されるよう事前に設定できる。この機能は、アドバンスト・メディアが3月からiOS向けに配信している音声入力キーボードアプリ「AmiVoice SBx」にも搭載している。地味な部分かもしれないが、こうした工夫もトータルでの利便性向上につながっている。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

この記事が気に入ったら
ITmedia Mobile に「いいね!」しよう