ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

ChatGPTで思考する人型AIと“同棲”したらどうなる? 「AIを信頼していく」 米中の研究者らが検証Innovative Tech

» 2023年07月21日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米マサチューセッツ大学アマースト校などに所属する研究者らが発表した論文「Building Cooperative Embodied Agents Modularly with Large Language Models」は、大規模言語モデル(LLM)が他のLLMエージェントや人間と協調して複雑なタスクを遂行する協調型エージェントの構築に役立つかどうかを調査した研究報告である。

アリス(LLMエージェント)とボブ(LLMエージェント/人間)が、一つ屋根の下でやりとりをしながら協調してタスクをこなしている様子

 この設定で成功するためには、エージェントが観察から有用な情報を抽出し、周囲環境と他のエージェントに関する情報を収集。その上で、何をいつどうするかのコミュニケーションを行い、共通のゴールに到達するための協調的な計画を立てなければならない。

 これらを達成するために、LLMを利用した、協調のためのフレームワークを提案する。このフレームワークは複数のモジュールで構成される。

 搭載するモジュールは「物理環境と他のエージェントの両方を理解するモジュール」「LLMの強力な自由形式の対話生成を利用して何を伝達するかを決定するコミュニケーションモジュール」「他のモジュールから提供された全ての情報を総合して、いつ伝達するかを含む高レベルの計画を決定する推論モジュール」など。協調を成功させるための重要な側面に対処する。

 実験では2人のエージェント(アリスとボブ)を同じ場所に住まわせ、両者の行動をモニターした。タスクは、食事の支度や食器を洗うなど数種類の一般的な家事活動を設定した。ただし、必要な物(フォークや食品など)は、寝室やバスルームなどさまざまな場所にあり、複雑にしている。

 モニタリングの結果、まずエージェントはいつ助けを求めるべきかを知っており、他の人の要求に応答できることを確認できた。例えば、ボブはリビングルームで目的のオブジェクトを見つけたが、手に持てなかったので、この情報を共有し、アリスに手伝いに来るように要請。アリスはその場所に行き、オブジェクトを手に取ることで応答した。これはいつ助けを求めるべきかを知っており、他人の要求と応答を理解できることを示している。

 次に、エージェントが他人のことを考慮して自分の計画を変えることができることが分かった。以下はその一例になる。

 ボブが「寝室でフォークを見つけたんだけど、キッチンに行ってもっと探すよ。アリス、リビングルームやバスルームにもっとフォークがないか調べてね」と言うと、アリスは「私もフォークを見つけたわ。今、キッチンにいるから、私がキッチンの棚を探っている間に、リビングルームにもっとフォークがないか調べてね」と答えた。

 このように、ボブは最初は自分がキッチンに行くと計画していたが、実際にはアリスが既にチェックしていたため、アリスはボブにリビングルームに行くよう提案した。最終的に、ボブはアリスの提案に同意した。

 次に、効率の観点から、現在行っている作業を優先し、コミュニケーションを後回しにするケースもあった。例えば、アリスがボブに話しかけたが、ボブはテーブルに皿を置こうとしていたので、無視して先に皿を置いた。その時点で皿を置くことが最後のタスクだったこともあり、ボブは仕事(皿を置く動作)を終えることが効率的だと判断し、より高い効率を実現するためにコミュニケーションを後回しにする選択をした。

エージェントとエージェントとが協調しているシーン

AIエージェントと人間は協調できるか?

 次の実験では、エージェントと人間を同様の設定下に置き、エージェントが人間とうまく協調できるかをモニターした。8人の参加者にそれぞれ実行してもらい、アンケートで質問に答えてもらった。その結果、人間がエージェントと進捗状況をテキストで共有し、タスクを分担する提案をすると、エージェントはそれを理解し、将来の計画を返答するやりとりができた。

 例えば、人間が「寝室でカップケーキとジュースを見つけたよ」と言ったとする。それに対して、エージェントは「素晴らしい! 私はキッチンにいるよ。ワインやリンゴなどを探してみるよ。カップケーキとジュースをキッチンのテーブルに置いたら教えてね」と返答した。

 そして、人間が「テーブルの上に置いたよ。リビングルームやバスルームも探してみるね」と返答し、意味のあるやりとりが続いた。こうしたやりとりにより、エージェントへの信頼が高まっていったという結果が得られた。

エージェントと人間のやりとりを表した図

 これらの結果から、GPT-4のような最近のLLMの豊富な知識と強力な推論能力を利用することで、他のエージェントや人間と計画立案、コミュニケーション、協調を行い、長期的な目標を効率的に達成できると分かった。また、自然言語で人間とコミュニケーションするLLMベースのエージェントは、人間からより多くの信頼を獲得できることが分かった。

Source and Image Credits: Zhang, Hongxin, et al. “Building Cooperative Embodied Agents Modularly with Large Language Models.” arXiv preprint arXiv:2307.0248(2023).



Copyright © ITmedia, Inc. All Rights Reserved.