機械と対話できる日は来るのか アドバンスト・メディアに聞く、音声認識の課題と可能性特集・音声言語インタフェース最前線(2/3 ページ)

» 2018年04月06日 06時00分 公開
[田中聡ITmedia]

分野を特化すれば対話はできる

 アドバンスト・メディアがかつて定義していた「超音声認識」の世界では、人間の手を借りずにPCや携帯電話と対話ができるようになる。そのために重要なのが「意図解釈」だという。

 意図解釈ができると、話したことに対して、適切な答えを返せるようになる。また、人間が話すと、かんだり言い直したりすることはよくある。そのまま認識すると不自然になってしまうが、意図解釈ができれば、不自然さを補完することもできる。

 現在のスマートフォンやスマートスピーカーでは決まった受け答えしかできず、日常会話まではできない。「どう解釈するかは膨大な発話パターンをAIに学習させる必要があります。当社では、音声認識技術だけではなく、この意図解析技術にも力を入れいて、AmiAgentとして音声対話を実現する人工知能(AI)対話ソリューションの事例も増えています」(坂口氏)

 なかなかハードルの高そうな意図解釈だが、分野を限定すれば、既に実現できている面もある。

 レオパレス21が提供している「LEO SUPPORT」では、これま同社が蓄積してきた入居者からの相談や質問などのデータをもとに構築したFAQと、AI対話エンジンを活用し、ユーザーからの質問にAIチャットで回答している。回答がたまることでAIエンジンが学習し、回答の精度が高まるという。

音声認識 賃貸マンションやアパートに関する相談ができる「LEO SUPPORT」

 家電の音声操作も好例で、学習リモコン「iRemocon Wi-Fi」にもAmiVoiceが採用されている。「例えば、電気を消したいときに『暗くして』『照明オフ』『電気消して』と言っても通じるように、家電のコントロールに限定すると、相当なコミュニケーションはできます」(坂口氏)

 家電の音声操作についても、今後は「CSの○○chを見たい」「野球中継が見たい」「○○が出演している番組が見たい」などの要望にも応えてくれることが期待される。「個人のやりたいことが、シナリオをベースに声で簡単に設定できるようになると、音声認識はさらに使われていくのではと思います」(坂口氏)

対話の「シナリオ」をいかに蓄積していくか

 レオパレスや学習リモコンのケースでは特定分野に特化しているため、比較的簡単に対話を実現できた。これが「日常会話」となると、膨大な用語や言い回しがターゲットになるため、一朝一夕には実現できない。人間が機械と友達のように対話できる日はいつ頃やってくるのだろうか。坂口氏は「まだまだ時間がかかる」と明言を避けたが、「日常会話はシナリオが複雑なので、『これを言ったら何と返すか』というデータベースも強化する必要がある。それがAIにとって大事になります」と述べる。

 シナリオ開発の取り組みの1つとして、アドバンスト・メディアは「コミュクラフト」というプラットフォームを提供している。コミュクラフトでは、「コミュクラフト シナリオデザイナー」というツールを使って、バーチャルキャラクターと音声で会話するためのシナリオを自由に作成、公開できる。専門的なスキルがなくても簡単にシナリオが作れるため、さまざまなクリエーターが参加できる。

音声認識 シナリオを作成できるツール「コミュクラフト」

 コミュクラフトは2017年12月に提供されたばかりだが、今後は、作成したシナリオを公開できるWebサービスや、モバイル端末やIoT端末で実行できるアプリも用意していく。ここでシナリオが蓄積されていけば、機械と日常会話ができる日も近づくだろう。

 意図解釈も、まだまだ発展の余地はある。例えば、直前に話したことだけでなく、それまで話していた内容も加味した、会話の流れや状況を理解して話すことも求められる。「私は今、取材を受けているので、その状況を前提として話をしています。こうした先読みするような力も必要ですし、コンピュータ自体の処理能力を上げていく必要もあります」(坂口氏)

 アドバンスト・メディアは個人の声の特徴を学習する取り組みも研究している。「例えば○○さんの『こんにちは』の言い方を学ぶといったものです。○○さんが絶対に話さない言葉が(データーベースに)入っていると、間違う可能性が高くなる。今後は、音声認識の“個人適用”も重要になってくるでしょう」と坂口氏は話す。こうした取り組みが、より正確な認識に貢献するというわけだ。

方言はどこまで認識できる?

 日本にはさまざまな「方言」が存在するが、音声認識でどこまでカバーできるのか。坂口氏は「イントネーションの違いはカバーしています。方言についても、『あかんねん』『おおきに』など、よく使う言葉は音声認識辞書に入っていますが、あまりに違う言葉を認識させるには、英語のエンジンと同じイメージで、異なる言語になります。それもカバーできるようなエンジンを作るのか、分けて作った方がいいのかは、見極めながらやっていかないといけません」(坂口氏)


Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー

2024年