人とAIの共存で進化する「おもてなし」

なぜ“マツコロイド”と“マツコ”の雑談は失敗したのか?【総力特集】人とAIの共存で進化する「おもてなし」(2/4 ページ)

» 2016年12月02日 08時00分 公開
[池田憲弘ITmedia]

「言葉」と「表情」の情報を融合しにくい理由

 人間のコミュニケーションは、バーバル(Verbal:言語)とノンバーバル(Non-Verbal:非言語)の2種類に分けられる。人がコミュニケーションで相手から受け取る情報のうち、言語そのものから得られる情報は1割程度にすぎず、しぐさや態度などといった情報が残りの9割を占めるという。相手から「ありがとう」と言われても、その表情がこわばっていたら、感謝をされているとは思いづらいだろう。

 スムーズなコミュニケーションは、“言葉と表情、両者の分析が組み合わさって生まれる”といえるが、両方の研究を連携して進めているケースは少ないという。

 「今の研究では、対話とジェスチャー、そのどちらかだけをやっているケースが多いですね。テキストは1つ1つの単語があるかないかといった情報(離散値)ですが、ジェスチャーや音声は、波形や映像などで表す、数値の情報(連続値)であることが多く、お互いに使う情報が全然違うため、研究者があまり被っていないんですよ。

 今、うちのグループには両方の研究者がいるので、これからは一緒に研究しようと思っていますし、ロボティクス分野の第一人者として知られる石黒浩先生とも協力できる体制が整っています。統合的に研究を進めることで、心が通い合ってるんじゃないかと思えるようなロボットを仕上げられる可能性があると思っているんです」(東中さん)

 ジェスチャーや声のトーンなど、さまざまな情報を組み合わせれば、コミュニケーションのレベルが高まるのは間違いないが、そこにもやはり問題がある。情報が増えれば増えるほど、処理に時間がかかってしまう上、各情報の統合も難しくなるのだ。人間の場合はそれを自然なスピードでやってのけるが、このレスポンスが遅くなってしまうと、不自然な印象を相手に与えてしまう。

米国オースティンで行われたイベント「South by Southwest(SXSW)2016」における大阪大学の石黒浩教授の講演。動画開始10分からジェミノイドHI-4(通称:イシグロイド)との雑談対話が始まる。NTTの雑談対話システムが用いられており、「Well.」や「Right.」といった相づちをうまく入れることでタイムラグを抑えているのが分かる

 「人間同士の会話って、実は半分くらいは相手の語尾に“食い気味”のタイミングで始まるんですよね。1秒でも反応がないと相手を不安にさせてしまいます。人間の場合、仮に話す言葉が出てこなくても『あー』とか『うーん』といった言葉を発して、その間に考えている。中でも『えっと』という言葉は、考えている印象を相手に与えるので、通常よりも長く間が持ちます。こうした言葉を使い分けて、「これから話しますよ」という意志を伝えながら話す技術が必要になっているんです」(東中さん)

 こうしたタイムラグは、スーパーコンピュータを使うなど、マシンの処理能力が上がれば解消されるようにも見えるが、東中さんによると「スパコンを使えばできる」という段階にたどり付いていないのが現状なのだという。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ