「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた(3/3 ページ)
──マルチモーダル用のニューラルネットがあるというよりも、テキスト用のニューラルネットに音声や画像も入力しているという感じなんですね。GPT-4oを含む現在のマルチモーダルLLMの限界と、今後の発展の方向性について教えてください
椎橋:現在のGPT-4oを含むマルチモーダルLLMは、あくまでもテキストのLLMをベースにして、そこに音声や画像をトークン化して付け加えているに過ぎません。つまり、音声や画像を言語の体系に無理やり当てはめているのです。
一方、人間は五感から得た情報を統合してワールドモデル(世界のモデル)を作り、その上に言語という記号的な体系を貼り付けています。つまりLLMとは逆の順番で知能を構築しているわけです。
そういう意味では、GPT-4oのようなマルチモーダルLLMは、言語で捉えられない五感情報は理解できていません。人間のような深いマルチモーダル処理を実現するには、言語ではなく五感のモダリティをベースにして作り、その上に抽象的なモダリティである言語をマッピングするようなアプローチが必要になるでしょう。
例えばMetaのヤン・ルカンのチームはこの方向性で研究を進めており、言語を介さずに動画だけでフレーム予測をするモデルなどを開発しています。ただし最新技術であるJEPAを使ったV-JEPAも、まだ動画というシングルモーダルのモデルで、マルチモーダル化はできていません。
OpenAIのGPT-4oは、こうした根本的な探求とは違う方向性、つまり言語モデルをベースにしたマルチモーダル化で実用性を追求したと言えます。
──人間並みの知性を求めるなら、言語だけを取り扱っていてはダメだということですね
椎橋:今後、より人間に近い知能を目指すなら、言語だけでなく五感の情報処理も含めたアーキテクチャの開発が重要になってくるでしょう。しかし、必ずしも人間の知能に近づくことがゴールではないという意見もあります。
デジタル知能は、人間の知能とは異なる特性を持っています。例えば、人間の脳には約100兆個のシナプスがあるといわれていますが、GPT-4の場合、パラメータ数は約1兆個と推定されています。シナプスとパラメータを同等と見なせば、GPT-4は人間の脳の約100分の1のサイズで、一人の人間よりはるかに多くの知識を蓄えられることになります。
また、デジタル知能はモデルのコピーが容易で、学習のスケーラビリティが高いという点でも人間の知能とは異なります。1つのモデルが獲得した知識やスキルを、瞬時に大量のコピーに複製できるのです。これは、人間の場合、1人1人が学習しなければならないのと対照的です。さらに、人間は一生の間に獲得できる知識量に限りがありますが、AIの場合、原理的にはより大規模なデータを使った学習が可能です。つまり、人間の知能を超えるポテンシャルを秘めているのです。
このように、デジタル知能は人間の知能とは異なる独自の特性を持っています。従って、マルチモーダルAIの開発において、必ずしも人間の知能を模倣することがゴールではないという意見もあります。むしろ、デジタル知能の特性を生かしつつ、言語ベースのアプローチとのバランスを取っていくことが、当面の発展の方向性になるのではないかとも考えられます。
人間の知能を超えるAIの実現は、人類にとって大きな意味を持ちます。しかし、それは人間の知能を単に模倣することではなく、デジタル知能の特性を生かした新しい知能の形を探求することなのかもしれません。マルチモーダルLLMは、その探求の重要な一歩を示しているのです。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
2
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
「Claude Fable 5」の性能が落ちた? 提供停止前後で比べた結果 米AI企業2社がそれぞれ報告
-
5
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
6
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
7
AIに詳しくなくても大丈夫、月額制で中小企業のAI活用をプロが支える新サービス
-
8
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
9
Meta、「Claude Codeと組織改編で爆速開発」のはずが「想定より加速せず」 ザッカーバーグ氏、社内集会で発言
-
10
NTT、独自のAIモデル「tsuzumi 2」発表 “国産AI開発競争”に「負けられない」と島田社長
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR