「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた(2/3 ページ)
──GPT-4oでのOpenAIの狙いは何だと思いますか?
椎橋:マルチモーダル化は、本質的により高度な知能を実現するため(=より賢さを追求するため)に重要なステップであるのですが、実は今回のGPT-4oに対するOpenAIの狙いは、そこではないと見ています。
賢さは同じでも、ユーザーインタフェースを変えることでユーザー体験が変わり、普及が加速する、という可能性を世に問いたかった、見せたかった、ということではないか、との見立てです。
これまでOpenAIは、GPT-3、3.5、4と、モデル自体の性能を高めて賢くすることに注力してきました。しかし今回のGPT-4oでは、より賢いモデルを出すのではなく、インタフェースの使いやすさにフォーカスを当てています。
例えば、GPT-4でも音声認識や音声合成と組み合わせれば音声での対話はできました。しかし、それは音声をテキストに変換して、テキストをLLMに入れて、出てきたテキストを再び音声に変換するというものだったので、いくつかボトルネックがありました。処理に時間がかかる、まとまった量の音声をためないとテキストに変換できない、声のトーンを変えられないなどです。そのため人と話すのとは全く違う体験でした。
GPT-4oではこれらの制約を取り払い、平均の応答時間を0.3秒に短縮し、途中で割り込んだり、内容に応じて声のトーンを変えたりできるようになりました。これにより、音声認識に向かって話しかけるのではなく、人と話すような自然な対話が可能になったのです。
映像についても同様で、ファイルをアップロードしてから質問するのではなく、カメラでリアルタイムに撮影しながら対話ができるようになりました(こちらはユーザーには未公開)。
つまり、OpenAIはGPT-4oで、インタフェースの違いを変えるだけでAIの普及が爆発的に広がる可能性を示そうとしたのだと思います。賢さの追求からインタフェースの使いやすさにシフトしたのが、GPT-4oの特徴といえるでしょう。
──マルチモーダルのLLMは、テキスト入出力のLLMとどう異なっているのでしょう? 音声や画像をどのように処理しているのですか?
椎橋:マルチモーダルLLMの基本的な仕組みは、テキストのLLMとほぼ同じで、ネクストトークン・プレディクション(次のトークンを予測すること)がベースになっています。
違いは、テキスト以外の音声や画像などもトークン化して扱う点です。従来のLLMではテキストだけをトークン化していましたが、マルチモーダルLLMでは音声や画像もトークン化します。
具体的には、まず音声や画像をデジタルデータ化してベクトル化します。ベクトル化は、デジタルデータを特定の特徴を持つ数値の列(ベクトル)に変換することです。
例えば、音声データの場合、波形の特徴量(周波数や強度など)を抽出し、それらを数値の列として表現します。ベクトル化することで、ニューラルネットの入力として扱いやすくなるんです。このベクトルをさらに、LLMのトークンに変換するのがコネクターの役割です。
要するに、音声や画像をテキストと同じような入力形式に変換するわけです。こうして音声、画像、テキストは全てトークン化され、それぞれのデータ種別に応じたインデックスを持ちます。例えば、テキストのトークンは1~1万、音声のトークンは1万1~2万、画像のトークンは2万1~3万というような具合で、トークンの種類が区別されます。
LLMは、これらのトークンを入力として受け取り、従来と同様のTransformerのアテンション機構などを用いて処理します。この際、LLMはそれぞれのトークンを統一的に扱います。つまり、テキスト、音声、画像の関係性を学習することができるのです。
そして出力の際は、出てきたトークンの種類に応じて、テキストならそのまま、音声や画像ならデコードして元の形式に戻します。
このように、テキストベースのLLMに、エンコーダーとコネクターを追加することで、LLMにマルチモーダル処理の機構を追加しているわけです。LLMの構造自体は変えずに、入出力を拡張しているのが特徴です。
ただし、音声を切れ目で区切ってトークン化したり、抑揚に合わせて声のトーンを変えたりする際の具体的な仕組みは公開されておらず、詳細は分かっていません。
Copyright © ITmedia, Inc. All Rights Reserved.
この記事の著者
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
日立、Anthropicと提携 グループ29万人に「Claude」などAI導入 社会インフラ分野にも展開へ
-
2
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
3
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
-
4
「家庭教師のトライ」が学力診断にAI活用 20問解くだけで弱点を推定 生徒と講師の負担減らす
-
5
「最新のAI創薬ラボ」なのに会議室みたい!? 製薬大手がラブコール送る“異色のAI企業”による新拠点とは
-
6
「AIデータセンターの電力需要が急増」はホント? 発電大手Jパワー社長が明かした“報道との温度差”
-
7
みずほFGが実現 2週間かかるAIエージェント開発を最短数日にする仕組みとは?
-
8
「さすがに似すぎ」?──“LOVOTそっくり”と話題のSwitchbot新作ペットロボ、日本でも発売へ GROOVE Xの反応は
-
9
OpenAI、「ChatGPT」に個人向け資産管理機能 金融口座と連携
-
10
“人型ロボ完全国産化”目指すベンチャーから身長約130cmの小型モデル 中国機ベースも、近く国産化ロードマップ発表
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR