推論特化の最新モデル「o3」と「o4-mini」登場　ChatGPT有料版で利用可能　AIの“視覚”も大幅進化

米OpenAIは、新たなAIモデル「o3」と「o4-mini」を公開した。4月16日からChatGPTの有料会員向けに提供を開始した。

[松浦立樹，ITmedia] PC用表示関連情報

LINE

Hatena

　米OpenAIは4月16日（現地時間）、新たなAIモデル「o3」と「o4-mini」を公開した。推論性能に優れたAIモデル「o」シリーズの最新バージョンで、ChatGPTの有料会員向けに同日から提供を開始した。

推論特化の最新モデル「o3」と「o4-mini」　AIの“視覚”も大幅進化

　o3は同社がこれまで一般公開している中で最高性能を持つ「o1」の次世代モデル。優れた推論能力を持ち、特にコーディングや数学、科学、視覚認識などの分野を得意としており、複数のベンチマークで最高記録（SOTA）を達成。外部専門家からは「難しいタスクにおいてo1よりも重大なエラーが20％少なく、特にプログラミングやビジネス、コンサルティング、創造的なアイデア創出などの分野で優れている」と評価を受けた。

　o4-miniはo3よりも推論能力は劣るものの、応答速度やコスト効率に優れた小型のAIモデル。コーディングや数学、視覚タスクを得意分野としており、前モデルの「o3-mini」よりも利用上限が大幅に増加。大量の問い合わせやリアルタイム応答により適したAIモデルとなった。

o3とo4-miniのベンチマーク

　他にもo3とo4-miniの両モデルで、コンテキストウィンドウ（AIモデルが応答を生成できるテキストの量）が20万まで増加している。

　またo3とo4-miniでは、ChatGPT内の全ツールを組み合わせて、AIエージェントのように使うことが可能になった。主にWeb検索やアップロード済みファイルの利用、Pythonでのデータ分析、画像生成などが対応。これによりChatGPTは、ユーザーのリクエストに応えるために適切な出力形式を推論するようになったという。

　ChatGPTの有料プランである「Plus」「Pro」「Team」ユーザーは、同日からこれらのAIモデルを利用可能。o1とo3-mini、o3-mini-highに代わって、o3とo4-mini、o4-mini-highがモデル選択の画面で選べるようになる。「Enterprise」と「Edu」ユーザーは24日からアクセス可能になり、無料ユーザーはo4-miniのみ試用できる。

　また有料ユーザー向けに提供しているハイエンドモデル「o1-pro」についても、次世代モデル「o3-pro」を今後数週間以内に提供するという。

o3とo4-miniは“視覚”も進化　推論に画像を取り入れる

　o3とo4-miniの大きな特徴には、視覚認識機能の進化がある。OpenAIによると「初めて、画像を見るだけでなく、思考の連鎖の中に画像を取り入れて考えることができるようになった」という。

　o3とo4-miniは回答を出力するまでに長い思考時間を持つが、その思考の中に画像を取り入れるようになった。これはユーザーがアップロードした画像をツールを使って変換することで実現しており、画像のトリミングや拡大、回転などの画像処理の他、画像から画像の抽出もできる。

ノートに逆さまに写った文字を読み取るように依頼すると……

AIが推論し、拡大・回転などの作業を実行する

　「高度な推論機能とWeb検索、画像操作などのツールをシームレスに組み合わせることで、不完全な写真からでも洞察を導き出せる。例えば、経済学の問題集の写真をアップロードすれば、段階的な説明を受けたり、開発エラーのスクリーンショットを共有すれば、迅速に根本原因分析を入手できる」（OpenAI）

　また、画像で考えるようになったことで、ChatGPTのインタラクションも改善。テキストが逆さまの場合や、画像がぼけやている場合、画質が低い場合でも、AIは視覚的な推論によってその物体を認識し、質問に答えることなどが可能という。

推論特化の最新モデル「o3」と「o4-mini」登場 ChatGPT有料版で利用可能 AIの“視覚”も大幅進化

o3とo4-miniは“視覚”も進化 推論に画像を取り入れる

関連記事

推論特化の最新モデル「o3」と「o4-mini」登場　ChatGPT有料版で利用可能　AIの“視覚”も大幅進化

o3とo4-miniは“視覚”も進化　推論に画像を取り入れる