「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた(3/3 ページ)
──マルチモーダル用のニューラルネットがあるというよりも、テキスト用のニューラルネットに音声や画像も入力しているという感じなんですね。GPT-4oを含む現在のマルチモーダルLLMの限界と、今後の発展の方向性について教えてください
椎橋:現在のGPT-4oを含むマルチモーダルLLMは、あくまでもテキストのLLMをベースにして、そこに音声や画像をトークン化して付け加えているに過ぎません。つまり、音声や画像を言語の体系に無理やり当てはめているのです。
一方、人間は五感から得た情報を統合してワールドモデル(世界のモデル)を作り、その上に言語という記号的な体系を貼り付けています。つまりLLMとは逆の順番で知能を構築しているわけです。
そういう意味では、GPT-4oのようなマルチモーダルLLMは、言語で捉えられない五感情報は理解できていません。人間のような深いマルチモーダル処理を実現するには、言語ではなく五感のモダリティをベースにして作り、その上に抽象的なモダリティである言語をマッピングするようなアプローチが必要になるでしょう。
例えばMetaのヤン・ルカンのチームはこの方向性で研究を進めており、言語を介さずに動画だけでフレーム予測をするモデルなどを開発しています。ただし最新技術であるJEPAを使ったV-JEPAも、まだ動画というシングルモーダルのモデルで、マルチモーダル化はできていません。
OpenAIのGPT-4oは、こうした根本的な探求とは違う方向性、つまり言語モデルをベースにしたマルチモーダル化で実用性を追求したと言えます。
──人間並みの知性を求めるなら、言語だけを取り扱っていてはダメだということですね
椎橋:今後、より人間に近い知能を目指すなら、言語だけでなく五感の情報処理も含めたアーキテクチャの開発が重要になってくるでしょう。しかし、必ずしも人間の知能に近づくことがゴールではないという意見もあります。
デジタル知能は、人間の知能とは異なる特性を持っています。例えば、人間の脳には約100兆個のシナプスがあるといわれていますが、GPT-4の場合、パラメータ数は約1兆個と推定されています。シナプスとパラメータを同等と見なせば、GPT-4は人間の脳の約100分の1のサイズで、一人の人間よりはるかに多くの知識を蓄えられることになります。
また、デジタル知能はモデルのコピーが容易で、学習のスケーラビリティが高いという点でも人間の知能とは異なります。1つのモデルが獲得した知識やスキルを、瞬時に大量のコピーに複製できるのです。これは、人間の場合、1人1人が学習しなければならないのと対照的です。さらに、人間は一生の間に獲得できる知識量に限りがありますが、AIの場合、原理的にはより大規模なデータを使った学習が可能です。つまり、人間の知能を超えるポテンシャルを秘めているのです。
このように、デジタル知能は人間の知能とは異なる独自の特性を持っています。従って、マルチモーダルAIの開発において、必ずしも人間の知能を模倣することがゴールではないという意見もあります。むしろ、デジタル知能の特性を生かしつつ、言語ベースのアプローチとのバランスを取っていくことが、当面の発展の方向性になるのではないかとも考えられます。
人間の知能を超えるAIの実現は、人類にとって大きな意味を持ちます。しかし、それは人間の知能を単に模倣することではなく、デジタル知能の特性を生かした新しい知能の形を探求することなのかもしれません。マルチモーダルLLMは、その探求の重要な一歩を示しているのです。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
日立、Anthropicと提携 グループ29万人に「Claude」などAI導入 社会インフラ分野にも展開へ
-
2
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
3
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
4
「家庭教師のトライ」が学力診断にAI活用 20問解くだけで弱点を推定 生徒と講師の負担減らす
-
5
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
6
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
7
みずほFGが実現 2週間かかるAIエージェント開発を最短数日にする仕組みとは?
-
8
「さすがに似すぎ」?──“LOVOTそっくり”と話題のSwitchbot新作ペットロボ、日本でも発売へ GROOVE Xの反応は
-
9
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
10
“人型ロボ完全国産化”目指すベンチャーから身長約130cmの小型モデル 中国機ベースも、近く国産化ロードマップ発表
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR