Google DeepMind、ロボットの行動を改善する新VLAモデル「RT-2」発表

Google DeepMindは、ロボットのアクションを直接出力できるVLAモデル「RT-2」を発表した。Web上のテキストと画像でトレーニングされており、ロボットは直接学習していない物体や概念についての命令を実行できるようになる。

[佐藤由紀子，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　米Google傘下のGoogle DeepMindは7月28日（現地時間）、視覚と言語を行動に翻訳する新しいVLA（Vision-Language-Action）モデル「RT-2」を発表した。

　RT-2 は、Web上のテキストと画像でトレーニングされたTransformerベースのモデルで、ロボットのアクションを直接出力できる。LLM（大規模言語モデル）をWeb上のテキストデータでトレーニングするのと同様に、RT-2はWeb上のデータから知識を転送してロボットの動作に情報を与える。

　これにより、従来は例えば「コーラの空き缶をゴミ箱に捨てて」という命令を実行するためには、コーラの缶とはなにか、それが空になっていることはどうやって判断するか、物体を掴むにはどうすればいいのか、ゴミ箱とはなにか、ゴミ箱に捨てるというアクションはどういうものか、など、膨大な定義をロボットに教える必要があったところ、初めてコーラの空き缶を見ても、それがコーラの空き缶だと認識でき、「捨てる」というアクションの意味も理解するようになる。

　Google DeepMindのロボティクス責任者、ヴィンセント・ヴァンホーク博士は「RT-2はWebデータの大規模なコーパスから知識を転送できるため、ゴミが何であるかを理解しており、明示的なトレーニングなしで識別できる」と説明する。「ポテトチップスの袋やバナナは、食べた後にゴミになる。RT-2は視覚言語トレーニングデータからそれを理解できる」。

　デモでは、「バナナをドイツの国旗の上に置いて」「コーラの缶をテイラー・スウィフトの肖像の近くに移動して」「イチゴをイチゴが入っているボールに入れて」などの命令を実行させている。国旗やテイラー・スウィフトについてはWeb上の画像から学習したのだろう。

テイラー・スウィフトを認識した

　モデル名から分かるように、RT-2には先代にあたるRT-1があった。2022年12月に発表したRT-1は、ロボットが自分の経験から学習し、それを他のロボットと共有できるようにする相互に学習できるようにするロボティクストランスフォーマー（RT）モデルだった。

　RT-2モデルをテストした結果、新しいタスクの実行効率はRT-1は32％だったところ、RT-2は62％に向上したという。「RT-２を使えば、ロボットは人間と同じようにさらに学習することができ、学習した概念を新しい状況で使うことができる」とヴァンホーク氏は語った。

Google DeepMind、ロボットの行動を改善する新VLAモデル「RT-2」発表

関連記事

関連リンク