「GPT-4o」は何がすごい？　なぜLLMは画像や音声も扱えるの？　“マルチモーダル”について識者に聞いた（1/3 ページ）

» 2024年06月27日 15時30分公開

　米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。ChatGPTでは、GPT-4oの性能を生かした「高度な音声モード」も提供予定（6月25日に延期を発表）で、感情や非言語的なジェスチャーの意味を理解して応答することで、AIとリアルタイムで自然な会話が可能になるという。

Laboro.AI 代表取締役CEOの椎橋徹夫氏

　GPT-4oは従来のLLMと何が違うのか、そもそもマルチモーダルとは何を意味するのか。さらに、GPT-4oを含む現在のマルチモーダルLLMの限界と今後の発展の方向性について、AIの専門家に解説してもらった。

プロフィール：椎橋徹夫

米国州立テキサス大学理学部卒業後、ボストンコンサルティンググループに参画。消費財や流通など多数のプロジェクトに参画した後、社内のデジタル部門の立ち上げに従事。その後、東大発AI系のスタートアップ企業に創業4人目のメンバーとして参画。AI事業部の立ち上げをリード。東京大学工学系研究科松尾豊研究室にて「産学連携の取り組み」「データサイエンス領域の教育」「企業連携の仕組みづくり」に従事。同時に東大発AIスタートアップの創業に参画。2016年にLaboro.AIを創業し、代表取締役CEOに就任。

──GPT-4oの特徴は、マルチモーダルの幅を広げたことだといわれていますが、GPT-4登場の時にもマルチモーダル化と言われました。何が違うのでしょうか？　そもそもマルチモーダルとは何ですか？

椎橋：そもそもマルチモーダルとは、扱えるデータの種類のことを指します。自然言語、つまりテキストのデータ、音声のデータ、画像のデータなどの異なるモダリティ（種類）を扱えることをマルチモーダルと言うんです。

　もともとのChatGPTなどのLLM（大規模言語モデル）は、シングルモーダルなモデルで、テキストを入れてテキストを出力するだけでした。それが、GPT-4では画像の入力が可能になり、GPT-4oでは音声もテキストも動画も入力として受け付け、音声とテキストおよび画像の出力ができるようになりました。

　マルチモーダルが重要なのは、人間をはじめ高等生物は皆マルチモーダルだからです。複雑な世界をより正確に認識し適切なアクションを取る高度な知能には、複数の種類の感覚インプットを組み合わせて処理することが必要・有効だからです　

　例えば人間の五感はマルチモーダルなインプットで、見たものと聞いたものを同時に処理しています。世界の状態をより正確に認識していくためには、マルチモーダルが重要になるわけです。

──マルチモーダルになることで、人間の知性に近づくわけですね

椎橋：ただし、マルチモーダルにおいて、言語とそれ以外のモダリティの違いについては注意が必要です。人間は、五感を通して世界を学び、その中で具体的なものから抽象的な概念を形成していきます。そして、この抽象的な概念を他者とコミュニケーションするために、言語という記号システムを発展させてきました。つまり、言語は、人間が頭の中で抽象化した概念に対して、名前や記号を割り当てることで成立しているんです。

　一方、音声や画像などの他のモダリティは、人間の五感が直接的に感知する生の信号的な情報なんです。音声は空気の振動という物理的な信号であり、画像は光の反射や吸収による信号です。これらの信号は、言語のように抽象的な概念を直接表現しているわけではありません。

　AIの研究において、この記号的な情報であるテキストと、信号的な情報である音声や画像をひも付けて統合的に処理することは、「シンボルグラウンディング」と呼ばれる重要な課題なんです。人間の知能を真に理解し、再現するためには、言語と他のモダリティをシームレスに結び付けることが不可欠だと考えられているんです。

　マルチモーダルLLMは、まさにこの課題に取り組むための重要なステップなんですよ。

GPT-4oを公開したOpenAIの狙いは？

　　　　　　 1|2|3 次のページへ