米Google系列の自動運転企業Waymoは2月6日(現地時間)、Google DeepMindの“汎用ワールドモデル”「Genie 3」採用の自動運転シミュレーションモデル「Waymo World Model」を発表した。カメラ映像だけでなく、LiDARなどのセンサーデータを含むマルチモーダルデータを生成できる。
Waymoの自動運転システム「Waymo Driver」は、既に主要な米国都市で約2億マイル(約3億2000万キロ)の完全自動運転による実走行実績を持ち、仮想空間では数十億マイルものシミュレーションを行っているが、今回発表されたモデルは、生成AIを活用してそのシミュレーション能力をさらに拡張するものだ。
従来の自動運転シミュレーションモデルの多くは、収集した路上データのみに基づいてゼロからトレーニングされていたため、システムが学習できる範囲は実際に経験したシナリオに限られていた。また、3Dガウシアンスプラッティング(3DGS)のような再構成技術を用いた手法は、実走行シーンの再現には優れているものの、そこから逸脱した新しい動きをシミュレーションしようとすると、観測データが不足し、視覚的な整合性が崩れてしまうという課題があった。
Google DeepMindが昨年8月に発表したGenie 3は、Web上の大量の動画データで事前学習された汎用的なワールドモデルで、物理法則や世界の多様な事象に対する広範な知識を有している。Waymoは、このGenie 3の2D動画に関する知識を、Waymo固有のセンサー構成に合わせた3DのLiDAR出力へと転移学習させた。これにより、実車データの収集だけではカバーしきれない状況でも、物理的な一貫性を保ちながらリアルな環境を生成することが可能になったとしている。
ただし、Genie 3には、フレームを逐次生成する過程で不正確さが蓄積し、1分以上経過すると一貫性を維持するのが難しくなるという技術的な課題が存在する。これに対しWaymoは、計算コストを削減しつつ高いリアリズムを維持できる効率的なバリアントを採用することで対処したという。この改良により、高速道路での合流や複雑な近隣エリアの通過といった、長時間にわたるシーケンスでも品質を安定させたまま推論を行うことが可能になったとしている。
具体的には、竜巻や洪水、山火事といった極端な気象条件や自然災害に加え、道路上に象が現れたり、ティラノサウルスの着ぐるみを着た歩行者がいたりといった、現実には起こりそうにない事象までシミュレーションできる。また、ドライブレコーダーや通常のカメラで撮影された動画を変換し、Waymo Driverがそのシーンをどう認識するかを再現することも可能で、多様な学習環境を構築できる。
特徴的な機能の1つに、「Driving action control」(運転行動制御)がある。これは、過去の走行データに対して「もしあの時、道を譲らずに進んでいたらどうなっていたか」といった、実際とは異なる行動(反実仮想)を入力として与えられる機能だ。従来の再構成手法とは異なり、Waymo World Modelは元のルートから逸脱した操作を行っても、新たな視点からの映像やセンサーデータをリアルタイムに生成し、視覚的・物理的な整合性を保ったままシミュレーションを完遂できるとしている。
Waymoは、このモデルを用いて実データだけでは不可能に近い状況や極めて稀なケースを積極的にシミュレートすることで、実世界で遭遇する前にWaymo Driverの対応能力を高める狙いだ。
Waymoのロボタクシー、学校付近で児童と接触──緊急ブレーキで負傷者はなし
Google、“歩ける”世界を生成する「Project Genie」を米国で試験公開 「Genie 3」と「Nano Banana Pro」を統合
Waymo、大規模停電下のロボタクシー“立ち往生”の原因と対策を説明
Google DeepMind、リアルタイムで世界を生成するAI「Genie 3」発表 “AGIへの足がかり”Copyright © ITmedia, Inc. All Rights Reserved.