「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた(1/3 ページ)
米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。ChatGPTでは、GPT-4oの性能を生かした「高度な音声モード」も提供予定(6月25日に延期を発表)で、感情や非言語的なジェスチャーの意味を理解して応答することで、AIとリアルタイムで自然な会話が可能になるという。
GPT-4oは従来のLLMと何が違うのか、そもそもマルチモーダルとは何を意味するのか。さらに、GPT-4oを含む現在のマルチモーダルLLMの限界と今後の発展の方向性について、AIの専門家に解説してもらった。
プロフィール:椎橋徹夫
米国州立テキサス大学理学部卒業後、ボストンコンサルティンググループに参画。消費財や流通など多数のプロジェクトに参画した後、社内のデジタル部門の立ち上げに従事。その後、東大発AI系のスタートアップ企業に創業4人目のメンバーとして参画。AI事業部の立ち上げをリード。東京大学工学系研究科松尾豊研究室にて「産学連携の取り組み」「データサイエンス領域の教育」「企業連携の仕組みづくり」に従事。同時に東大発AIスタートアップの創業に参画。2016年にLaboro.AIを創業し、代表取締役CEOに就任。
──GPT-4oの特徴は、マルチモーダルの幅を広げたことだといわれていますが、GPT-4登場の時にもマルチモーダル化と言われました。何が違うのでしょうか? そもそもマルチモーダルとは何ですか?
椎橋:そもそもマルチモーダルとは、扱えるデータの種類のことを指します。自然言語、つまりテキストのデータ、音声のデータ、画像のデータなどの異なるモダリティ(種類)を扱えることをマルチモーダルと言うんです。
もともとのChatGPTなどのLLM(大規模言語モデル)は、シングルモーダルなモデルで、テキストを入れてテキストを出力するだけでした。それが、GPT-4では画像の入力が可能になり、GPT-4oでは音声もテキストも動画も入力として受け付け、音声とテキストおよび画像の出力ができるようになりました。
マルチモーダルが重要なのは、人間をはじめ高等生物は皆マルチモーダルだからです。複雑な世界をより正確に認識し適切なアクションを取る高度な知能には、複数の種類の感覚インプットを組み合わせて処理することが必要・有効だからです
例えば人間の五感はマルチモーダルなインプットで、見たものと聞いたものを同時に処理しています。世界の状態をより正確に認識していくためには、マルチモーダルが重要になるわけです。
──マルチモーダルになることで、人間の知性に近づくわけですね
椎橋:ただし、マルチモーダルにおいて、言語とそれ以外のモダリティの違いについては注意が必要です。人間は、五感を通して世界を学び、その中で具体的なものから抽象的な概念を形成していきます。そして、この抽象的な概念を他者とコミュニケーションするために、言語という記号システムを発展させてきました。つまり、言語は、人間が頭の中で抽象化した概念に対して、名前や記号を割り当てることで成立しているんです。
一方、音声や画像などの他のモダリティは、人間の五感が直接的に感知する生の信号的な情報なんです。音声は空気の振動という物理的な信号であり、画像は光の反射や吸収による信号です。これらの信号は、言語のように抽象的な概念を直接表現しているわけではありません。
AIの研究において、この記号的な情報であるテキストと、信号的な情報である音声や画像をひも付けて統合的に処理することは、「シンボルグラウンディング」と呼ばれる重要な課題なんです。人間の知能を真に理解し、再現するためには、言語と他のモダリティをシームレスに結び付けることが不可欠だと考えられているんです。
マルチモーダルLLMは、まさにこの課題に取り組むための重要なステップなんですよ。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
赤字7500億円で時価総額300兆円 SpaceX上場が突きつけた「AIの適正価格」
-
2
画面操作を“録画”→AIが作業代行 Codexに新機能「Record & Replay」
-
3
チームみらい安野氏「牧歌的なAI開発の時代が終わった」 “ミュトス停止騒動”受け
-
4
OpenAI創業者、巨大モデルのアップデート作業は「大きな苦痛だった」――月イチ更新を可能にした体制とデータの重要性
-
5
月間売上1億円超、“推しAI”アプリ「Zeta」がオタク女子わしづかみ ただし危うさも
-
6
米大企業の7割が導入する「Databricks」とは何者か? 評価額20兆円の「AI向けデータ基盤」
-
7
ChatGPT vs. Google検索──どっちで調べるのが学習効果が高い? 8日間の実験で検証した研究
-
8
Sakana AI、初の商用サービスはリサーチ特化 「Deep Research」との違いは? 後発で“ベンチマークも追わない”ワケ
-
9
「シャドーAI」7割超の企業が対策追い付かず “会社が選んだAIだけ利用”はもう限界? ガートナー
-
10
AIコーディングはなぜ後から苦しくなるのか? 技術負債に続く「理解負債」「認知負債」という新たな落とし穴
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR