ITmedia NEWS > STUDIO >
ニュース
» 2020年08月21日 16時50分 公開

グランツーリスモSPORT最速完走をAIで 達人を凌駕する技術、ソニーなどが開発Innovative Tech

タイムトライアルを最速で。達人のドライビングテクを学習することで、AIが全ユーザーを抜き去った。

[山下裕毅,ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 スイス連邦工科大学チューリッヒ校とソニー・ヨーロッパの研究チームが開発した「Super-Human Performance in Gran Turismo Sport Using Deep Reinforcement Learning」は、カーレースゲーム「グランツーリスモSPORT」(GTS)を最速で完走する技術。タイムトライアルで超人的なパフォーマンスを実現する強化学習を用いたフレームワークだ。

photo グランツーリスモSPORTのカーレースで最速走行を学習する。中央のグラフでは、人間のドライバーによるラップタイムがヒストグラムで、ノンプレイヤーキャラクター(NPC)が黄色線、今回の手法のパフォーマンスが赤色線で示されている。右のグラフでは、達人レベルの最速ドライバー10人のラップタイムと本手法のパフォーマンス(赤)が示されている

 コースを最短時間で完走することを目的とする自律走行は難しい。実車やシミュレーションの自律走行車では有望な結果が得られているが、その性能は達人が運転するのにはまだ及ばないのが現状だ。

 GTSにおいても、エンジン出力調整などを行わない限り、ユーザーが操作しないノンプレイヤーキャラクター(NPC)では最速の達人に勝てない。

 GTSは、タイヤの温度や燃料レベルが自動車のトラクションに与える影響など、現実に起きることをモデル化した、現実度の高いドライビングシミュレーションとして知られており、実世界でのレースに近いと言われている。

 今回の手法では、タイムトライアルで達人よりも優れた性能を発揮する自律型エージェントを開発。エージェントは、達人がプレイする経路を参考に学習し、与えられたコース上での移動時間を最小化しながら、レースカーの動きに関する事前知識なしに自律的にナビゲートを可能にする。

photo システムの概要図

  具体的には、アルゴリズムの一種であるSoft Actor-Critic(SAC)と新しい報酬設計を利用して、与えられたレースコースをできるだけ早く完走するための運動ポリシーを訓練する。

photo 壁に接触せずにカーブを完走できる経路や減速のタイミングなど、アウト・イン・アウトのコーナリングを学習したりする

 訓練後のパフォーマンスは、現在ゲームに組み込まれているNPCの限界を超え、70カ国5万人以上のベストラップタイムデータセットにおいて、全てを凌駕した。

 ただしこれには条件がある。コース上に他の車がいないシングルプレイヤーのタイムトライアルレースに限定することと、学習した制御ポリシーを単一のコースと車の組み合わせに適用すること。今後の研究では、他の車を認識できるようにしたいという。

Copyright © ITmedia, Inc. All Rights Reserved.