機械と対話できる日は来るのか アドバンスト・メディアに聞く、音声認識の課題と可能性:特集・音声言語インタフェース最前線(2/3 ページ)
「音声認識」がクローズアップされることが増えた。音声認識が主な操作法であるスマートスピーカーやロボットも登場している。では、現在の音声認識技術は、どのレベルまで到達しているのか。アドバンスト・メディアに話を聞いた。
分野を特化すれば対話はできる
アドバンスト・メディアがかつて定義していた「超音声認識」の世界では、人間の手を借りずにPCや携帯電話と対話ができるようになる。そのために重要なのが「意図解釈」だという。
意図解釈ができると、話したことに対して、適切な答えを返せるようになる。また、人間が話すと、かんだり言い直したりすることはよくある。そのまま認識すると不自然になってしまうが、意図解釈ができれば、不自然さを補完することもできる。
現在のスマートフォンやスマートスピーカーでは決まった受け答えしかできず、日常会話まではできない。「どう解釈するかは膨大な発話パターンをAIに学習させる必要があります。当社では、音声認識技術だけではなく、この意図解析技術にも力を入れいて、AmiAgentとして音声対話を実現する人工知能(AI)対話ソリューションの事例も増えています」(坂口氏)
なかなかハードルの高そうな意図解釈だが、分野を限定すれば、既に実現できている面もある。
レオパレス21が提供している「LEO SUPPORT」では、これま同社が蓄積してきた入居者からの相談や質問などのデータをもとに構築したFAQと、AI対話エンジンを活用し、ユーザーからの質問にAIチャットで回答している。回答がたまることでAIエンジンが学習し、回答の精度が高まるという。
家電の音声操作も好例で、学習リモコン「iRemocon Wi-Fi」にもAmiVoiceが採用されている。「例えば、電気を消したいときに『暗くして』『照明オフ』『電気消して』と言っても通じるように、家電のコントロールに限定すると、相当なコミュニケーションはできます」(坂口氏)
家電の音声操作についても、今後は「CSの○○chを見たい」「野球中継が見たい」「○○が出演している番組が見たい」などの要望にも応えてくれることが期待される。「個人のやりたいことが、シナリオをベースに声で簡単に設定できるようになると、音声認識はさらに使われていくのではと思います」(坂口氏)
対話の「シナリオ」をいかに蓄積していくか
レオパレスや学習リモコンのケースでは特定分野に特化しているため、比較的簡単に対話を実現できた。これが「日常会話」となると、膨大な用語や言い回しがターゲットになるため、一朝一夕には実現できない。人間が機械と友達のように対話できる日はいつ頃やってくるのだろうか。坂口氏は「まだまだ時間がかかる」と明言を避けたが、「日常会話はシナリオが複雑なので、『これを言ったら何と返すか』というデータベースも強化する必要がある。それがAIにとって大事になります」と述べる。
シナリオ開発の取り組みの1つとして、アドバンスト・メディアは「コミュクラフト」というプラットフォームを提供している。コミュクラフトでは、「コミュクラフト シナリオデザイナー」というツールを使って、バーチャルキャラクターと音声で会話するためのシナリオを自由に作成、公開できる。専門的なスキルがなくても簡単にシナリオが作れるため、さまざまなクリエーターが参加できる。
コミュクラフトは2017年12月に提供されたばかりだが、今後は、作成したシナリオを公開できるWebサービスや、モバイル端末やIoT端末で実行できるアプリも用意していく。ここでシナリオが蓄積されていけば、機械と日常会話ができる日も近づくだろう。
意図解釈も、まだまだ発展の余地はある。例えば、直前に話したことだけでなく、それまで話していた内容も加味した、会話の流れや状況を理解して話すことも求められる。「私は今、取材を受けているので、その状況を前提として話をしています。こうした先読みするような力も必要ですし、コンピュータ自体の処理能力を上げていく必要もあります」(坂口氏)
アドバンスト・メディアは個人の声の特徴を学習する取り組みも研究している。「例えば○○さんの『こんにちは』の言い方を学ぶといったものです。○○さんが絶対に話さない言葉が(データーベースに)入っていると、間違う可能性が高くなる。今後は、音声認識の“個人適用”も重要になってくるでしょう」と坂口氏は話す。こうした取り組みが、より正確な認識に貢献するというわけだ。
方言はどこまで認識できる?
日本にはさまざまな「方言」が存在するが、音声認識でどこまでカバーできるのか。坂口氏は「イントネーションの違いはカバーしています。方言についても、『あかんねん』『おおきに』など、よく使う言葉は音声認識辞書に入っていますが、あまりに違う言葉を認識させるには、英語のエンジンと同じイメージで、異なる言語になります。それもカバーできるようなエンジンを作るのか、分けて作った方がいいのかは、見極めながらやっていかないといけません」(坂口氏)
関連記事
- ビジネス文書作成に特化 iOS向け音声入力アプリ「AmiVoice SBx」
アドバンスト・メディアは、3月6日にiOS向け音声入力キーボードアプリ「AmiVoice SBx」をリリースした。アプリを問わずマイクに向かって話すだけでビジネス文書を作成でき、文字変換を指定する単語登録機能や定型文登録などのカスタマイズ機能も備えている。 - PC連携で文字検索も可能 音声入力メモアプリ「AmiVoice iVoX Personal」iOS版が登場
アドバンスト・メディアは、1月11日に音声入力メモアプリ「AmiVoice iVoX Personal」のiOS版を配信開始した。最新の音声認識エンジンにより高い認識率を誇り、スマートフォンとPCで音声・文字・写真データの連携管理が行える。 - Googleは競争相手ではない?――B to Bと多言語化に注力するアドバンスト・メディア
モバイル分野ではこれまでコンシューマー向けに音声認識サービスを提供してきたアドバンスト・メディアが、今後は法人向け業務アプリの開発にも注力する。また、iOSだけでなく、AndroidやWindows Phone 7向けアプリも開発していく。 - 音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来
アドバンスト・メディアは、同社の音声認識技術「AmiVoice」を用いた幅広いサービスを展開している。同社が目指すのは、これまでの「機械中心」だった音声認識を超える「人間中心」のサービスだ。一方で、iPhoneやAndroid端末などモバイル分野にも注力していく。 - 「文字検索は面倒」も「人前での音声検索は恥ずかしい」が約7割 KDDIの音声操作に対する意識調査
KDDIは「日本人の音声操作に対する意識調査2017」の結果を発表。文字入力による検索は半数近くが「面倒」と回答するも、音声でのインターネット検索を人前で行うのは「恥ずかしい」が7割を超えている。
Copyright © ITmedia, Inc. All Rights Reserved.