「GPT-4o」は何がすごい？　なぜLLMは画像や音声も扱えるの？　“マルチモーダル”について識者に聞いた（3/3 ページ）

米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。GPT-4oは従来のLLMと何が違うのか、そもそもマルチモーダルとは何を意味するのか。AIの専門家に解説してもらった。

[斎藤健二，ITmedia] PC用表示関連情報

LINE

Hatena

前のページへ | 　　　　　　

──マルチモーダル用のニューラルネットがあるというよりも、テキスト用のニューラルネットに音声や画像も入力しているという感じなんですね。GPT-4oを含む現在のマルチモーダルLLMの限界と、今後の発展の方向性について教えてください

椎橋：現在のGPT-4oを含むマルチモーダルLLMは、あくまでもテキストのLLMをベースにして、そこに音声や画像をトークン化して付け加えているに過ぎません。つまり、音声や画像を言語の体系に無理やり当てはめているのです。

　一方、人間は五感から得た情報を統合してワールドモデル（世界のモデル）を作り、その上に言語という記号的な体系を貼り付けています。つまりLLMとは逆の順番で知能を構築しているわけです。

　そういう意味では、GPT-4oのようなマルチモーダルLLMは、言語で捉えられない五感情報は理解できていません。人間のような深いマルチモーダル処理を実現するには、言語ではなく五感のモダリティをベースにして作り、その上に抽象的なモダリティである言語をマッピングするようなアプローチが必要になるでしょう。

　例えばMetaのヤン・ルカンのチームはこの方向性で研究を進めており、言語を介さずに動画だけでフレーム予測をするモデルなどを開発しています。ただし最新技術であるJEPAを使ったV-JEPAも、まだ動画というシングルモーダルのモデルで、マルチモーダル化はできていません。

　OpenAIのGPT-4oは、こうした根本的な探求とは違う方向性、つまり言語モデルをベースにしたマルチモーダル化で実用性を追求したと言えます。

──人間並みの知性を求めるなら、言語だけを取り扱っていてはダメだということですね

椎橋：今後、より人間に近い知能を目指すなら、言語だけでなく五感の情報処理も含めたアーキテクチャの開発が重要になってくるでしょう。しかし、必ずしも人間の知能に近づくことがゴールではないという意見もあります。

　デジタル知能は、人間の知能とは異なる特性を持っています。例えば、人間の脳には約100兆個のシナプスがあるといわれていますが、GPT-4の場合、パラメータ数は約1兆個と推定されています。シナプスとパラメータを同等と見なせば、GPT-4は人間の脳の約100分の1のサイズで、一人の人間よりはるかに多くの知識を蓄えられることになります。

　また、デジタル知能はモデルのコピーが容易で、学習のスケーラビリティが高いという点でも人間の知能とは異なります。1つのモデルが獲得した知識やスキルを、瞬時に大量のコピーに複製できるのです。これは、人間の場合、1人1人が学習しなければならないのと対照的です。さらに、人間は一生の間に獲得できる知識量に限りがありますが、AIの場合、原理的にはより大規模なデータを使った学習が可能です。つまり、人間の知能を超えるポテンシャルを秘めているのです。

　このように、デジタル知能は人間の知能とは異なる独自の特性を持っています。従って、マルチモーダルAIの開発において、必ずしも人間の知能を模倣することがゴールではないという意見もあります。むしろ、デジタル知能の特性を生かしつつ、言語ベースのアプローチとのバランスを取っていくことが、当面の発展の方向性になるのではないかとも考えられます。

　人間の知能を超えるAIの実現は、人類にとって大きな意味を持ちます。しかし、それは人間の知能を単に模倣することではなく、デジタル知能の特性を生かした新しい知能の形を探求することなのかもしれません。マルチモーダルLLMは、その探求の重要な一歩を示しているのです。

「GPT-4o」は何がすごい？ なぜLLMは画像や音声も扱えるの？ “マルチモーダル”について識者に聞いた（3/3 ページ）

関連記事

「GPT-4o」は何がすごい？　なぜLLMは画像や音声も扱えるの？　“マルチモーダル”について識者に聞いた（3/3 ページ）