ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

AIが「言語生成AIとの対話」で賢くなり続ける自動成長モデル 米Meta含む研究者らが開発Innovative Tech

» 2023年11月08日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Metaやカナダのマギル大学などに所属する研究者らが発表した論文「Motif: Intrinsic Motivation from Artificial Intelligence Feedback」は、環境と直接対話せずに大規模言語モデル(LLM)からのフィードバックを用いてAIエージェントを強化学習で訓練する手法を提案した研究報告である。

提案手法でダンジョン探索型RPGゲーム「NetHack」を学習しながらプレイしている様子

 新しい環境に無知のままで放り込まれるAIエージェントは、知識がない状態からスタートを切ることになる。この新しい場面で何が適切な行動なのか、どのアクションが好ましい結果や新たな知見をもたらすかは、初めての経験では判断が難しい。

 例えば、鍵のかかったドアを開けるタスクを持ったエージェントを想像してみる。初めて鍵を発見した際、その鍵がドアを解錠する手段として使えるかどうかは明確でない。このような情報は、実際に行動し、環境とのインタラクションを通じて獲得する必要がある。しかし、人間にとっては、鍵がドアの解錠に利用できるというのは常識として知られている。

 そのため、このような基本的な知識を1つずつエージェントに指導するのは時間と労力がかかる。そこで、インターネット上に蓄積された人間の知識を利用して、エージェントにも同様の常識や知識を植え付ける方法が考えられるのではないか。

 研究では、急速に発展しているLLMからフィードバックを取得し、エージェントを訓練する新たな手法を採用している。しかし、このような常識的な情報を持つエージェントを強化する過程は容易ではない。

 LLMは高度な抽象性を持つ知識を有しているのに対し、意思決定エージェントは具体的な行動を取ることが必要とされるため、その操作は低い抽象レベルで求められる。この高度な知識を具体的な行動に変換するため、エージェントがLLMの高レベルな知識を現実の環境での行動に落とし込むためには、2つの異なる抽象レベルの間のギャップを埋める方法を見つける必要がある。

 この問題に取り組むための新しい手法として「Motif」を提案する。この方法は、事前に学習されたLLMから報酬関数を抽出し、その報酬を利用してAIエージェントを訓練するものである。具体的には、LLMを活用して観測データから得られたイベントの説明のペアの重要性を判定し、その結果を報酬として定義する。この報酬は、単体で最大化することも、環境から得られる外部報酬と併用することもできる。

Motifの手順を三つの段階で示す。LLMを使用してキャプションのペアから高い優先度のデータを取り出し、データセットに保存、そのデータを元に、報酬関数を作成、作成した報酬関数を使って、エージェントを訓練

 Motifの核心的なアイデアは、イベントを評価することが、イベントを0から生成するよりも容易であるという点にある。LLMは、環境内での事象の大まかな説明に基づき、その重要性を示すだけで、具体的な行動の詳細まで理解する必要はない。この特性により、LLMは、訓練時に習得した高い抽象度の知識を活用しつつ、強化学習のメカニズムを通じて詳細な観察や行動に基づく意思決定をサポートする。

 「NetHack Learning Environment」(NLE)というダンジョン探索型RPGゲームを用いて、Motifの有効性を評価した。この試験では、Llama 2を採用し、内在的な報酬で訓練した。その結果、この新しい報酬が、強化学習の効果を著しく高めることが明らかとなった。さらに、報酬取得が容易なタスクから、報酬の取得が非常に困難なタスクまで、Motifは一貫して良好な結果を示した。

 さらに重要な点として、Motifの報酬のみで訓練されたエージェントは、通常の方法(ゲームのスコアを直接的な報酬として使用)で訓練されたエージェントよりも、より高いスコアを達成した。これは、Motifによる訓練が、従来の方法に比べてエージェントの性能を向上させる可能性を持っていることを示している。

 さらに、LLMへのプロンプトの変更により、エージェントの行動を誘導できることを確認した。研究チームは、さまざまな行動(例:金を収集する行動、怪物を退治する行動など)を奨励するためのプロンプトを使用し、簡潔なプロンプトで目的とする指標をどれだけ向上させることができるかを試験した。

プロンプトによって、異なる3つのタイプにエージェントを導くことができた

 その結果、エージェントの特定の行動への誘導は容易であることを示した。LLMのプロンプトをわずかに修正するだけで、Motif自体の他の部分を変更することなく、期待する指標における顕著な向上が達成されることが判明した。

Source and Image Credits: Martin Klissarov, Pierluca D’Oro, Shagun Sodhani, Roberta Raileanu, Pierre-Luc Bacon, Pascal Vincent, Amy Zhang, Mikael Henaff. Motif: Intrinsic Motivation from Artificial Intelligence Feedback.



Copyright © ITmedia, Inc. All Rights Reserved.