「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた(3/3 ページ)
米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。GPT-4oは従来のLLMと何が違うのか、そもそもマルチモーダルとは何を意味するのか。AIの専門家に解説してもらった。
──マルチモーダル用のニューラルネットがあるというよりも、テキスト用のニューラルネットに音声や画像も入力しているという感じなんですね。GPT-4oを含む現在のマルチモーダルLLMの限界と、今後の発展の方向性について教えてください
椎橋:現在のGPT-4oを含むマルチモーダルLLMは、あくまでもテキストのLLMをベースにして、そこに音声や画像をトークン化して付け加えているに過ぎません。つまり、音声や画像を言語の体系に無理やり当てはめているのです。
一方、人間は五感から得た情報を統合してワールドモデル(世界のモデル)を作り、その上に言語という記号的な体系を貼り付けています。つまりLLMとは逆の順番で知能を構築しているわけです。
そういう意味では、GPT-4oのようなマルチモーダルLLMは、言語で捉えられない五感情報は理解できていません。人間のような深いマルチモーダル処理を実現するには、言語ではなく五感のモダリティをベースにして作り、その上に抽象的なモダリティである言語をマッピングするようなアプローチが必要になるでしょう。
例えばMetaのヤン・ルカンのチームはこの方向性で研究を進めており、言語を介さずに動画だけでフレーム予測をするモデルなどを開発しています。ただし最新技術であるJEPAを使ったV-JEPAも、まだ動画というシングルモーダルのモデルで、マルチモーダル化はできていません。
OpenAIのGPT-4oは、こうした根本的な探求とは違う方向性、つまり言語モデルをベースにしたマルチモーダル化で実用性を追求したと言えます。
──人間並みの知性を求めるなら、言語だけを取り扱っていてはダメだということですね
椎橋:今後、より人間に近い知能を目指すなら、言語だけでなく五感の情報処理も含めたアーキテクチャの開発が重要になってくるでしょう。しかし、必ずしも人間の知能に近づくことがゴールではないという意見もあります。
デジタル知能は、人間の知能とは異なる特性を持っています。例えば、人間の脳には約100兆個のシナプスがあるといわれていますが、GPT-4の場合、パラメータ数は約1兆個と推定されています。シナプスとパラメータを同等と見なせば、GPT-4は人間の脳の約100分の1のサイズで、一人の人間よりはるかに多くの知識を蓄えられることになります。
また、デジタル知能はモデルのコピーが容易で、学習のスケーラビリティが高いという点でも人間の知能とは異なります。1つのモデルが獲得した知識やスキルを、瞬時に大量のコピーに複製できるのです。これは、人間の場合、1人1人が学習しなければならないのと対照的です。さらに、人間は一生の間に獲得できる知識量に限りがありますが、AIの場合、原理的にはより大規模なデータを使った学習が可能です。つまり、人間の知能を超えるポテンシャルを秘めているのです。
このように、デジタル知能は人間の知能とは異なる独自の特性を持っています。従って、マルチモーダルAIの開発において、必ずしも人間の知能を模倣することがゴールではないという意見もあります。むしろ、デジタル知能の特性を生かしつつ、言語ベースのアプローチとのバランスを取っていくことが、当面の発展の方向性になるのではないかとも考えられます。
人間の知能を超えるAIの実現は、人類にとって大きな意味を持ちます。しかし、それは人間の知能を単に模倣することではなく、デジタル知能の特性を生かした新しい知能の形を探求することなのかもしれません。マルチモーダルLLMは、その探求の重要な一歩を示しているのです。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
OpenAI、5月に予告したChatGPTの高度な音声モード提供を延期
OpenAIは、「GPT-4o」発表イベントで予告した高度な音声モードの提供開始時期を、当初の6月下旬から延期すると発表した。「リリースの基準に達するまでにあと1カ月必要」としている。
生成AIでGPUがいらなくなる? 業界を揺るがす「1ビットLLM」とは何か、識者に聞いた
米Microsoftの研究チームが発表した「BitNet」、通称「1bit LLM」と呼ばれる論文が波紋を呼んでいる。これまで必須だと思われていたGPUが不要で、CPUでもLLMが動作することを示唆している。そもそも“1bit”とは何が1bitなのか、どうして1bitになるとGPUが不要になるのか、AIソリューションの開発・提供を行うLaboro.AIの椎橋徹夫CEOに聞いた。
「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】
米OpenAIが、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。テキストはもちろん、音声や画像、映像での入力、音声での応答に対応し、アプリ版の「ChatGPT」ではユーザーと自然に対話できるようになった。開発者向けにAPIとして提供する他、同日からChatGPT内で利用できるように展開を始める。
AIの不適切発言を引き出せ! 横須賀市、“未完成”のチャットbot公開 GPT-4o活用
横須賀市は、未完成のAIチャットbot「ニャンぺい」を公開した。米OpenAIの大規模言語モデル「GPT-4o」を活用した市民の悩み相談に対応するAIチャットbot。公開実験と称してさまざまな不具合を収集し、それを改善するのが目的という。
PKSHA製基盤モデルの特徴とは? 「Transformer」ではなく「RetNet」だから実現できた“3つの強み”
生成AIブームの今、注目のキーワードが「基盤モデル」だ。各AIベンダーたちの間で基盤モデルの開発競争が激化する中、それぞれの開発状況や強みを探っていく。今回は、AIベンチャー・PKSHA Technology(東京都文京区)に話を聞いた。