2022年のChatGPTの登場から約3年。生成AIブームをけん引してきた米NVIDIAが、次なる革命として「フィジカルAI」という概念を打ち出している。24年11月、同社CEOのジェンスン・フアン氏は東京での講演で「日本こそがフィジカルAI革命をリードすべき国だ」と熱弁した。
LLM(大規模言語モデル)が文章や画像を生成するのに対し、フィジカルAIは物理世界そのものを理解し、自動車やロボットなどを制御する――米Teslaの自動運転や、世界中で進むヒューマノイドロボット開発を支える技術だ。
AI開発企業Laboro.AIの椎橋徹夫代表は「LLMには限界がある」と指摘する。物理法則を本当に理解しているわけではないLLMでは、現実世界でロボットを動かすことはできないからだ。では、フィジカルAIはどのようにしてこの壁を超えようとしているのか。
フィジカルAIの仕組みや課題、今、注目されている理由、日本企業にとっての勝機など、次世代AIの全貌に迫る。
――フィジカルAIとLLMの違いは
椎橋:フィジカルAIを理解するには、2つの層に分解して考える必要があります。LLMは基本的に、次に来る単語を予測することに特化しています。しかしフィジカルAIになると、これだけでは足りません。
自動運転を例に考えてみましょう。車が走っているとき、まず「次の瞬間、目の前の映像がどう変わるか」を予測する必要があります。周りの車がどう動くか、歩行者がどこに向かうか。これが第一の層である予測です。
でも、予測しただけでは車は動きません。予測に基づいて「じゃあハンドルを何度切るか、アクセルをどれくらい踏むか」という最適な動きを決める必要がある。これが第二の層である制御です。フィジカルAIは物理的な行動まで落とし込まなければならない。この予測と制御の組み合わせが、LLMとの決定的な違いです。
LLMは言語空間のモデルであって、物理的な世界のモデルではありません。人間の赤ちゃんを考えてみてください。生まれたての頃は言葉を話せませんが、五感で世界を感じ取り、物が落ちる、ぶつかる、転がるといった現象を体験しながら、頭の中に世界のモデルを作っていく。その後で、言語をそこに貼り付けていくわけです。
一方LLMは、人間が学ぶよりもずっと大量の言語だけをひたすら見せられて学習していますが、五感の情報は全く持っていない。つまり、物が落ちるという現象を言葉として正確に説明できても、実際に物理法則を理解していません。
米MetaのAI研究者であるヤン・ルカンが「LLMは本当の知能にたどり着けない」と言うのも、このためです。LLMは次に来る単語を予測することに特化している。しかし、物理法則に基づいたシミュレーションを作ったり、現実世界で適切に行動したりすることはできません。
――しかし最近は、言葉の入出力以外に、画像の認識・生成ができるマルチモーダルLLMも登場しています
椎橋:マルチモーダルLLMの画像認識・生成は、言語が学習の根幹にあります。画像をトークンという言語と同じような形式に変換して、言語空間で扱えるようにしているだけで、本質的に物理的な空間を直接学んでいるわけではありません。だからこそ、ロボット制御や自動運転のような、物理空間の中で瞬時に意思決定をして適切な行動を取る必要があるタスクでは、LLMには限界があります。
そこで必要になるのが、物理世界そのものを理解し、予測し、制御できるAI――つまりフィジカルAIです。LLMとは根本的に異なるアプローチで、現実世界を扱うために生まれた次世代のAI。それがフィジカルAIの本質です。
Copyright © ITmedia, Inc. All Rights Reserved.