マシンのスペックを高めても、理想的な反応速度を実現するのが難しい理由として、東中さんは「認識」と「プランニング」という2つの問題を挙げる。
現在のNTTにおける雑談対話システムでは、ユーザーの発言の意図を理解する部分、システム側の発話の意図を決める部分、発話の意図を正しく伝えられるよう文字化する部分など、複数のシステムをつなげる形で処理を行っている。
このシステムでは(AI全般に言えることではあるが)、基本的に相手の言葉を聞ききってから処理を始めるため、相手の語尾に被せることも多い人間のコミュニケーションに比べると、どうしても初動が遅れてしまう。先に紹介したように、「うーん」や「えっと」という相づちを発することが解決策にはなるものの、それはただ時間を稼いでいるだけで、本質的に早く応答できるようになるわけではない。これがAIの「認識」におけるタイムラグの問題だ。
「『インクリメンタルプロセシング』という、聞いてる間に考えて応答する研究は結構ありますし、相づちを的確に打つ研究も20年くらい前からずっと続いています。しかし、それが長い会話で使えるまでには発展していません。あと、相手の『言い間違い』や『言い直し』にも弱いですね。何が違っているのかを把握するのが難しい。人間のコミュニケーションに近づけるには、リアルタイム処理のような仕組みが必要になるのですが、そのモデルができていないのです」(東中さん)
もう1つの「プランニング」は、端的に言えばアルゴリズムの問題だ。人間の場合、「相手はこう考えているのではないか」「自分がこう話したら、こういう言葉を返すのではないか」という予測を少なからず行って会話をしているが、全ての可能性を検討してから判断を行うようなAIの場合、可能性が無限にある中での「予測」は極めて難しい。
「全ての可能性を考えようとすると、コンピュータが動かなくなるので、『このときはこういうことを考えればいいんだ』というように、範囲を限定して検索をする必要があります。そして相手の反応に合わせて、その範囲を変えていく。ただしその範囲というのも、コミュニケーションの場合は曖昧な概念なので、漠然とした状態で次の手を考えなければいけません。スパコンを使ったら多少は速くなるのでしょうが、どこまでの範囲で考えたらよいか分からない以上、プランニングの部分が結局ネックになってしまいます」(東中さん)
Copyright © ITmedia, Inc. All Rights Reserved.