このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米ジョージア工科大学に所属する研究者らが発表した論文「PokeLLMon: A Human-Parity Agent for Pokemon Battles with Large Language Models」は、ポケモンバトルのようなコマンドバトルゲームで人間並みの性能を達成する大規模言語モデル(LLM)を搭載した自律型AIエージェントを提案した研究報告である。
この研究では、ポケモンバトルにおいて人間のプレイヤーのように振る舞うLLMを搭載したエージェントを開発することを目的としている。またエージェントが優れたプレイヤーとなるための重要な要因を探求し、人間のプレイヤーとのバトルでの強みと弱みを検証している。
PokeLLMonフレームワークでは、以下の3つの戦略が取り入れられている。まず「In-Context Reinforcement Learning」(ICRL)では、エージェントは以前のアクションからのテキストベースのフィードバックを基にして行動を改善する。
例えば、エージェントがみずタイプの攻撃「クラブハンマー」を使用するが、相手のポケモンが「かんそうはだ」という特性(各ポケモンが持つ特殊能力)で、攻撃を無効にした場合、このフィードバックに基づいてエージェントは別の攻撃方法やポケモンに切り替える。ICRLにより、エージェントはより効果的なアクションを選択し、勝率とバトルスコアを向上できる。
次に「Knowledge-Augmented Generation」(KAG)は、エージェントが外部の知識(例えば、ポケモンの特徴がまとめられたゲーム内機能「ポケモン図鑑」など)を活用して生成を拡張する手法である。KAGでは、タイプの有利・不利関係や技・能力の効果などの情報を外部から取得し、エージェントの判断基準に加える。
例えば、ほのおタイプのポケモンに不利な相性である、くさタイプのポケモンを出すような誤った行動を事前に防ぐ。また適切なタイミングで適切な技を選択するようになり、LLM特有の幻覚(ハルシネーション)を軽減し、戦略的な意思決定が可能となる。
3つ目の「Consistent Action Generation」は、LLMを用いて、より一貫性のある効果的な行動を生成する方法である。このアプローチでは、エージェントは複数の行動案を生成し、その中から最も状況に適した、もしくは最も合理的な行動を選択する。
特に「パニックスイッチング」と呼ばれる問題を減少できる。これは、エージェントが直面する強力な対戦相手に対して適切な戦略や解決策を見つけられず、パニックに陥り連続して異なるポケモンに切り替える行動を取ることを指す。この問題を軽減することで、勝率を向上させている。
ネット上で公開している非公式の対戦シミュレーター「Pokemon Showdown」を使って、ランダムな人間プレイヤーとのオンラインバトル実験や、15年以上のポケモン経験を持つ人間プレイヤーとの戦いを行った。その結果、PokeLLMonはランダムなプレイヤーとの対戦で約48%の勝率を、招待プレイヤーとの対戦で約56%の勝率を達成した。
バトルスキル分析では、PokeLLMonの強みとして効果的な技選択と適切なポケモンへの切り替えが挙げられた。しかし、短期的な利益に強い一方で、長期的な計画を必要とする消耗戦の戦略には弱いとされ、経験豊富な人間プレイヤーによる戦術に惑わされる傾向があった。
Source and Image Credits: Sihao Hu, Tiansheng Huang, Ling Liu. PokeLLMon: A Human-Parity Agent for Pokemon Battles with Large Language Models.
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR