米Googleと独ベルリン工科大学の研究者らは3月6日、ロボット制御のための具現化されたマルチモーダルな視覚言語モデル「PaLM-E」についての論文を発表した。視覚と言語を統合する、5620億ものパラメータを備えた視覚言語モデル(VLM)だ。
PaLM-E(Pathways Language Model with Embodied)は、Googleが昨年のGoogle I/Oで発表した大規模言語モデル(LLM)「PaLM」をベースにしており、画像や状態推定などの視覚的な入力を受け取り、自然言語で出力できる。これにより、ロボットは人間の音声による命令を受けてタスクを実行できる。
例えば、ロボットに「引き出しからスナックの袋を出して持ってきて」と口頭で頼むと、ロボットは頭脳であるPaLM-Eと搭載したカメラの視野に映る情報に基づいて命令を実行に移す。
Githubで公開された動画では、ロボットが引き出しを開けてスナックを取り出し、それを人間が横からこっそりまた引き出しに戻すとまたスナックを取り出し、アームでつかんで命令した人間のところまで運ぶ様子を見ることができる。
つまり、状況が変化するとそれに対応できる。前処理されたデータではなく、視野に映るデータを解析・解釈するから可能なことだ。PaLM-Eは画像やセンサーからのデータを言語トークンと同程度のサイズのベクトルにエンコードし、言語処理と同じ方法でこれらの感覚情報を理解する。こうして従来よりも自律的なロボット制御が可能になる。
研究者らは、ホームオートメーションや産業用ロボットなどのシナリオで、PaLM-Eを調査していく計画だ。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR