「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた(3/3 ページ)
──マルチモーダル用のニューラルネットがあるというよりも、テキスト用のニューラルネットに音声や画像も入力しているという感じなんですね。GPT-4oを含む現在のマルチモーダルLLMの限界と、今後の発展の方向性について教えてください
椎橋:現在のGPT-4oを含むマルチモーダルLLMは、あくまでもテキストのLLMをベースにして、そこに音声や画像をトークン化して付け加えているに過ぎません。つまり、音声や画像を言語の体系に無理やり当てはめているのです。
一方、人間は五感から得た情報を統合してワールドモデル(世界のモデル)を作り、その上に言語という記号的な体系を貼り付けています。つまりLLMとは逆の順番で知能を構築しているわけです。
そういう意味では、GPT-4oのようなマルチモーダルLLMは、言語で捉えられない五感情報は理解できていません。人間のような深いマルチモーダル処理を実現するには、言語ではなく五感のモダリティをベースにして作り、その上に抽象的なモダリティである言語をマッピングするようなアプローチが必要になるでしょう。
例えばMetaのヤン・ルカンのチームはこの方向性で研究を進めており、言語を介さずに動画だけでフレーム予測をするモデルなどを開発しています。ただし最新技術であるJEPAを使ったV-JEPAも、まだ動画というシングルモーダルのモデルで、マルチモーダル化はできていません。
OpenAIのGPT-4oは、こうした根本的な探求とは違う方向性、つまり言語モデルをベースにしたマルチモーダル化で実用性を追求したと言えます。
──人間並みの知性を求めるなら、言語だけを取り扱っていてはダメだということですね
椎橋:今後、より人間に近い知能を目指すなら、言語だけでなく五感の情報処理も含めたアーキテクチャの開発が重要になってくるでしょう。しかし、必ずしも人間の知能に近づくことがゴールではないという意見もあります。
デジタル知能は、人間の知能とは異なる特性を持っています。例えば、人間の脳には約100兆個のシナプスがあるといわれていますが、GPT-4の場合、パラメータ数は約1兆個と推定されています。シナプスとパラメータを同等と見なせば、GPT-4は人間の脳の約100分の1のサイズで、一人の人間よりはるかに多くの知識を蓄えられることになります。
また、デジタル知能はモデルのコピーが容易で、学習のスケーラビリティが高いという点でも人間の知能とは異なります。1つのモデルが獲得した知識やスキルを、瞬時に大量のコピーに複製できるのです。これは、人間の場合、1人1人が学習しなければならないのと対照的です。さらに、人間は一生の間に獲得できる知識量に限りがありますが、AIの場合、原理的にはより大規模なデータを使った学習が可能です。つまり、人間の知能を超えるポテンシャルを秘めているのです。
このように、デジタル知能は人間の知能とは異なる独自の特性を持っています。従って、マルチモーダルAIの開発において、必ずしも人間の知能を模倣することがゴールではないという意見もあります。むしろ、デジタル知能の特性を生かしつつ、言語ベースのアプローチとのバランスを取っていくことが、当面の発展の方向性になるのではないかとも考えられます。
人間の知能を超えるAIの実現は、人類にとって大きな意味を持ちます。しかし、それは人間の知能を単に模倣することではなく、デジタル知能の特性を生かした新しい知能の形を探求することなのかもしれません。マルチモーダルLLMは、その探求の重要な一歩を示しているのです。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
チームみらい安野氏「牧歌的なAI開発の時代が終わった」 “ミュトス停止騒動”受け
-
2
「AIを使う学生」vs.「使わない学生」、エッセイが創造的なのはどっち? 米大学が2025年に実証実験
-
3
Cursor、Gitホスティング「Origin」発表 SpaceXによる買収発表直後に
-
4
Anthropic、デザインツール「Claude Design」を強化 Codeとの双方向連携やCanvaなどへの出力をサポート
-
5
月間売上1億円超、“推しAI”アプリ「Zeta」がオタク女子わしづかみ ただし危うさも
-
6
「AIコーディング」がたった5年で急進化したワケ NTT「tsuzumi 2」開発者が分析
-
7
OpenAIのサム・アルトマンCEO、来日中止 都内イベント登壇予定を変更
-
8
ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究
-
9
【Pythonで学ぶデータ分析】母平均と母標準偏差をベイズ推定する ~ シュークリームの重さは100gと異なるか?
-
10
かんぽ生命、AIで営業支援 “郵便局での一言”拾って保険提案へ 寸劇で分かる活用例
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR