昨今、ソフトバンクの人型ロボット「Pepper」を皮切りに、接客にAIを利用する実証実験や事例が増えてきている。ロボットが接客――というと、まるで人間と会話しているかのようなイメージを抱く人もいるかもしれないが、現実はなかなかそうもいかない。
現時点では、AIの音声対話による接客には限界がある――。こう話すのは、サイバーエージェントのAI研究組織「AI Lab」で、対話エージェントを研究している馬場惇氏だ。現在は、大阪大学の石黒研究室と共同で研究を行っており、研究員として同大学に常駐しているそうだ。
ロボットやAIを使う場合、接客におけるコミュニケーション手段は、音声でやりとりする「音声対話」、チャットなどでやりとりを行う「テキスト対話」、そして、ユーザーに会話の選択肢を選ばせる「選択式対話」の3つに分けられると馬場氏。このうち、音声対話とテキスト対話は実用性の面でまだ難しい部分があるという。
ディープラーニング技術の発展などもあり、音声認識の精度は年々高まっている。馬場氏によると、2018年1月現在、英語における発話認識の単語正答率は94.4%だという(参照リンク)。複数人の同時発話についても、精度が9割を超えるような専用マイクが開発されていることもあり、質問の認識については実用に耐え得る品質になりつつある。
一方で、質問してから回答するまでのスピードについてはまだまだ厳しい。質問を全て話し終わってから処理を始めるようでは、会話に不自然な間が空いてしまう(人間の場合、文脈などから話の途中でも回答を推測している)。特にクラウド側で認識処理を行う場合、どうしても通信による遅延が発生するため、自然なスピードで返答を返すのは非常に難しいのだ。
テキスト入力については、一問一答形式であれば精度は高いものの、それではマニュアル対応のような印象をユーザーに与えてしまう。しかし、自由入力にすると誤認識のリスクが高まる上、発言の流れや文脈をつかむ必要も出てくるため、現状の技術では対応し切れない。いずれにせよ、ヒアリングをして提案する――といった人間並みの接客には程遠い。
そこで、馬場氏らが実用化に向けて研究を進めているのが、ユーザーがタッチパネルなどで会話を選択していく「選択式対話」だ。恋愛シミュレーションゲームにおける選択肢をイメージすると分かりやすいかもしれない。Pepperによる接客実験でも、胸部のディスプレイに表示される選択肢をユーザーが選んで、会話を進めていくシステムを採用している例は多い。
Copyright © ITmedia, Inc. All Rights Reserved.