メディア
ITmedia AI+ >

「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】

» 2024年05月14日 02時10分 公開
[ITmedia]

 米OpenAIは5月13日(米国時間)、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。テキストはもちろん、音声や画像、映像での入力、音声での応答に対応し、アプリ版の「ChatGPT」ではユーザーと自然に対話できるようになった。開発者向けにAPIとして提供する他、同日からChatGPT内で利用できるように展開を始める。

新モデル「GPT-4o」を発表するミラ・ムラティCTO

 GPT-4oは無料ユーザーでも利用可能になる。ChatGPTでは従来、無料ユーザーが使えるモデルは「GPT-3.5」までで、「GPT-4」を利用するには課金する必要があった。ただし、有料のChatGPT Plusユーザーは時間当たりのメッセージやり取り可能回数が無料ユーザーに比べて5倍に緩和される。企業向けのTeamやEnterpriseユーザーはさらに制限が緩和されるとしている。

 同社は発表会のライブデモで、GPT-4oを搭載したiOS版ChatGPTと対話する様子を配信。音声での質問や投げかけに対し自然なテンポで流暢に応答する様子や、その場で人間が紙に書いた簡単な数式の問題を映像としてChatGPTに見せて、ChatGPTが問題を正しく解く様子などをプレゼンした。

ライブデモの様子(英語)
手書きの数式の問題を映像としてChatGPTに見せている

 こうした音声モードは、これから数週間以内にアルファ版でリリースした後にPlusユーザー向けに早期アクセスを提供する予定としている。

 Mac向けのデスクトップアプリも今回発表。デスクトップ上に表示したプログラミングのコードやグラフをChatGPTが受け取り、その内容を解釈する様子も示した。

ChatGPTのMac向けデスクトップアプリ。プログラミングコードを渡して内容を解説させている
画面自体をChatGPTに見せることでグラフを解釈させることもできる

 主なプレゼンテーションはミラ・ムラティCTOが行い、サム・アルトマンCEOは登壇しなかったが、アルトマン氏はXで、4月下旬に話題になっており同氏も言及していた謎の生成AI「gpt2-chatbot」の正体がGPT-4oであったことを明かした

 gpt2-chatbotは、米カリフォルニア大学バークレー校の研究室が運営するWebサービス「Chatbot Arena」の中に突如現れたモデル。Chatbot Arenaは各種生成AIモデルの出力を人間が比較し優劣を評価できるサービスだ。

 その評価に基づくと思われるレーティング表では、OpenAIの従来の高性能モデル「GPT-4 Turbo」や米Anthropicの「Claude3 Opus」も抑え、gpt2-chatbot(つまりGPT-4o)が全体評価やコーディング評価で大きな差をつけて1位を記録している。

各生成AIのレーティング表(サム・アルトマン氏の投稿より引用)。GPT-4o(gpt2-chatbot)が他の生成AIに大きな差をつけて1位を記録している
コーディングではさらに大きな差をつけている

 OpenAIのメンバーであるウィリアム・フェダスさんはこれらの結果から「これ(GPT-4o)は世界最高のモデルであるだけでなく、ChatGPTで無料で利用可能になる。これは最先端のモデルとしては前例のないことだ」とXに投稿した。

 APIの価格は100万トークン(トークンは概ね単語数の意味)の入力当たり5ドルで、100万トークンの出力当たり15ドル。これらは従来の「GPT-4 Turbo」に比べ半額となる。また、GPT-4oはGPTに比べ応答速度も2倍早いとしている。APIはすでに利用可能だ。

Copyright © ITmedia, Inc. All Rights Reserved.