このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。
X: @shiropen2
米Googleやイスラエルのテルアビブ大学に所属する研究者らが発表した論文「Diffusion Models Are Real-Time Game Engines」は、ニューラルネットワークのみで動作するゲームエンジン「GameNGen」を提案した研究報告である。3Dゲーム環境をリアルタイムで高品質に長時間シミュレートし、プレイヤーとのインタラクティブなやりとりを可能にする。
GameNGenの能力を示すため、研究チームは1993年に発売された一人称シューティングゲーム「DOOM」を用いてテストを行った。その結果、1台のTPU(Tensor Processing Unit)を使用して「Stable Diffusion v1.4」の拡張版を基に、リアルタイムにゲームをシミュレートすることに成功した。
具体的には、プレイヤーの入力(移動、視点の変更、アクションなど)に応じて、毎秒20フレーム以上の速度で新しい画面を生成する。また、プレイヤーの体力や弾薬の管理、敵キャラクターとの戦闘、環境オブジェクトの破壊、ドアの開閉などの複雑なゲーム状態の更新を実行し、ニューラルネットワーク内で再現する。
画質の面でも、GameNGenは成果を上げている。次のフレームを予測する際のPSNR(ピーク信号対雑音比)は29.4を記録。これは一般的なJPEG画像の中程度の圧縮レベルと同等を意味する。
完全にクリアではないものの、ゲームをプレイするのに十分な鮮明さを持っている。実際、人間の目で見ても、本物のゲーム画面とGameNGenが作り出した画面の区別がつきにくいほどの品質を達成している。
GameNGenの開発プロセスは2段階で構成。第1段階では、強化学習を用いてAIエージェントにゲームのプレイ方法を学習させる。このプロセスで得られた全てのゲームプレイデータが記録され、次の段階で活用される。第2段階では、拡散モデルを使い、過去のフレームとプレイヤーの操作を入力として、次のフレームを生成するよう学習を行う。この手法により、長時間のゲームプレイにわたって安定したフレーム生成が可能となっている。
Source and Image Credits: Dani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter. Diffusion Models Are Real-Time Game Engines
Copyright © ITmedia, Inc. All Rights Reserved.