AIがポケモンバトルをしたら？　15年以上の熟練プレイヤーとの戦いで勝率56％　米研究者ら「PokeLLMon」開発：Innovative Tech

» 2024年02月07日 08時00分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　米ジョージア工科大学に所属する研究者らが発表した論文「PokeLLMon: A Human-Parity Agent for Pokemon Battles with Large Language Models」は、ポケモンバトルのようなコマンドバトルゲームで人間並みの性能を達成する大規模言語モデル（LLM）を搭載した自律型AIエージェントを提案した研究報告である。

　この研究では、ポケモンバトルにおいて人間のプレイヤーのように振る舞うLLMを搭載したエージェントを開発することを目的としている。またエージェントが優れたプレイヤーとなるための重要な要因を探求し、人間のプレイヤーとのバトルでの強みと弱みを検証している。

LLMがポケモンバトルする際の概要

3つの戦略を備わったPokeLLMonフレームワーク

　PokeLLMonフレームワークでは、以下の3つの戦略が取り入れられている。まず「In-Context Reinforcement Learning」（ICRL）では、エージェントは以前のアクションからのテキストベースのフィードバックを基にして行動を改善する。

　例えば、エージェントがみずタイプの攻撃「クラブハンマー」を使用するが、相手のポケモンが「かんそうはだ」という特性（各ポケモンが持つ特殊能力）で、攻撃を無効にした場合、このフィードバックに基づいてエージェントは別の攻撃方法やポケモンに切り替える。ICRLにより、エージェントはより効果的なアクションを選択し、勝率とバトルスコアを向上できる。

エージェントは「クラブハンマー」で攻撃するが、「かんそうはだ」によって相手のポケモンへの効果が無効に

　次に「Knowledge-Augmented Generation」（KAG）は、エージェントが外部の知識（例えば、ポケモンの特徴がまとめられたゲーム内機能「ポケモン図鑑」など）を活用して生成を拡張する手法である。KAGでは、タイプの有利・不利関係や技・能力の効果などの情報を外部から取得し、エージェントの判断基準に加える。

　例えば、ほのおタイプのポケモンに不利な相性である、くさタイプのポケモンを出すような誤った行動を事前に防ぐ。また適切なタイミングで適切な技を選択するようになり、LLM特有の幻覚（ハルシネーション）を軽減し、戦略的な意思決定が可能となる。

エージェントが技の効果を理解し、適切に使用している様子

　3つ目の「Consistent Action Generation」は、LLMを用いて、より一貫性のある効果的な行動を生成する方法である。このアプローチでは、エージェントは複数の行動案を生成し、その中から最も状況に適した、もしくは最も合理的な行動を選択する。

　特に「パニックスイッチング」と呼ばれる問題を減少できる。これは、エージェントが直面する強力な対戦相手に対して適切な戦略や解決策を見つけられず、パニックに陥り連続して異なるポケモンに切り替える行動を取ることを指す。この問題を軽減することで、勝率を向上させている。

　ネット上で公開している非公式の対戦シミュレーター「Pokemon Showdown」を使って、ランダムな人間プレイヤーとのオンラインバトル実験や、15年以上のポケモン経験を持つ人間プレイヤーとの戦いを行った。その結果、PokeLLMonはランダムなプレイヤーとの対戦で約48％の勝率を、招待プレイヤーとの対戦で約56％の勝率を達成した。

PokeLLMonが消耗戦法に苦しんでいるシーン

経験豊富なプレイヤーとのバトルシーン

　バトルスキル分析では、PokeLLMonの強みとして効果的な技選択と適切なポケモンへの切り替えが挙げられた。しかし、短期的な利益に強い一方で、長期的な計画を必要とする消耗戦の戦略には弱いとされ、経験豊富な人間プレイヤーによる戦術に惑わされる傾向があった。

Source and Image Credits: Sihao Hu, Tiansheng Huang, Ling Liu. PokeLLMon: A Human-Parity Agent for Pokemon Battles with Large Language Models.

2024年の生成AIはどうなる？　サイバーエージェントなどIT企業4社の“本音”　「OpenAI強すぎる問題」に活路はあるか
ChatGPTが注目を集め、生成AI導入の機運が一気に広がった2023年。日本で生成AIの開発、実装に携わるIT企業4社が生成AI活用の現状と2024年の生成AIの展望を語った。
大規模言語モデルの「幻覚」を軽減する32の最新テクニック　バングラデシュなどの研究者らが発表
バングラデシュのIslamic University of Technology、米サウスカロライナ大学、米スタンフォード大学、米Amazon AIに所属する研究者らは、大規模言語モデルにおける幻覚を軽減するための32のテクニック（研究）を紹介した研究報告を発表した。
Google DeepMind、LLM採用AIシステム「FunSearch」で数学的難問を解決
Google DeepMindは、LLM採用のAIシステム「FunSearch」を発表した。LLMとLLMによる幻覚を防止する“評価器”を組み合わせたもので、「ビンパッキング問題」向けの実用的なアルゴリズムも出力できる。
人だと正解率92％なのに、GPT-4だと15％になる新型テスト集「GAIA」　米Metaなどが開発
米Metaや米HuggingFaceなどに所属する研究者らは、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル（LLM）を評価するためのベンチマークを発表した。
自分の文章がAIに学習されているか調べるツール　米国チームが開発
米ワシントン大学と米プリンストン大学に所属する研究者らは、任意の文章が大規模言語モデル（LLM）で事前学習されているかを検出できるツールを提案した研究報告を発表した。