このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
スイス連邦工科大学チューリッヒ校とソニー・ヨーロッパの研究チームが開発した「Super-Human Performance in Gran Turismo Sport Using Deep Reinforcement Learning」は、カーレースゲーム「グランツーリスモSPORT」(GTS)を最速で完走する技術。タイムトライアルで超人的なパフォーマンスを実現する強化学習を用いたフレームワークだ。
コースを最短時間で完走することを目的とする自律走行は難しい。実車やシミュレーションの自律走行車では有望な結果が得られているが、その性能は達人が運転するのにはまだ及ばないのが現状だ。
GTSにおいても、エンジン出力調整などを行わない限り、ユーザーが操作しないノンプレイヤーキャラクター(NPC)では最速の達人に勝てない。
GTSは、タイヤの温度や燃料レベルが自動車のトラクションに与える影響など、現実に起きることをモデル化した、現実度の高いドライビングシミュレーションとして知られており、実世界でのレースに近いと言われている。
今回の手法では、タイムトライアルで達人よりも優れた性能を発揮する自律型エージェントを開発。エージェントは、達人がプレイする経路を参考に学習し、与えられたコース上での移動時間を最小化しながら、レースカーの動きに関する事前知識なしに自律的にナビゲートを可能にする。
具体的には、アルゴリズムの一種であるSoft Actor-Critic(SAC)と新しい報酬設計を利用して、与えられたレースコースをできるだけ早く完走するための運動ポリシーを訓練する。
訓練後のパフォーマンスは、現在ゲームに組み込まれているNPCの限界を超え、70カ国5万人以上のベストラップタイムデータセットにおいて、全てを凌駕した。
ただしこれには条件がある。コース上に他の車がいないシングルプレイヤーのタイムトライアルレースに限定することと、学習した制御ポリシーを単一のコースと車の組み合わせに適用すること。今後の研究では、他の車を認識できるようにしたいという。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR