OpenAIは専門的知識業務と長時間推論に特化した最新モデル「GPT-5.2」を公開した。長文理解やツール操作、コード生成などの性能を向上させ、企業利用や高度業務での実用性を高めた。
この記事は会員限定です。会員登録すると全てご覧いただけます。
OpenAIは2025年12月11日(現地時間)、専門的な知識業務や長時間稼働を必要とするエージェント用途に重点を置いた新モデル「GPT-5.2」を公開した。スプレッドシートやプレゼン資料の生成、コード生成、画像理解に加え、長文の構造把握やツール操作、複雑な多段階作業の処理で高い性能を発揮するという。
GPT-5.2は多くのベンチマークにおいて幅広い領域で改良が示され、OpenAIのAIモデルの経済価値を図る評価指標「GDPval」では44職種にわたる知識業務タスクで業界専門家を上回る成績となった。
GPT-5.2は「ChatGPT」において有料プランで順次利用開始され、APIでも利用できる。
特に汎用的な推論能力を測定するARC-AGI-1(GPT-5.2 Thinking:86.2%/GPT-5.1 Thinking:72.8%)やARC-AGI-2(GPT-5.2 Thinking:52.9%/GPT-5.1 Thinking:17.6%)における精度向上が目立つ。
長時間推論するバージョンであるGPT-5.2 Thinkingは、経済的価値の高い専門業務における性能が特に強化されているという。44の職種にまたがる明確に定義された知識業務タスクを評価するGDPvalのタスクを業界専門家の11倍以上の速度、コストは1%未満で生成し、成果物の品質に関しても審査員から高評価を得た。
ソフトウェア開発領域においても改良が顕著とされ、ソフトウェアエンジニアリングを厳密に評価するSWE-Bench Proでは55.6%のスコアを記録し、従来モデルと比較して高い修正能力が得られた。フロントエンド開発に関する報告では複雑・非標準的なUI作業、特に3D要素を伴う場面の強化が評価された。
また、GPT-5.1と比較して、回答に誤りが含まれる確率が38%減少したと説明されている。調査や文書作成などでの信頼性向上につながると思われる。
ロングコンテキストの処理においては、長い文書に分散した情報を統合する能力を評価するOpenAI MRCRv2で高水準を記録した。256kトークン規模の情報を扱う4-needle試験ではほぼ100%の一致率に到達し、契約書や研究論文などの大規模文書を扱う場面で精度を維持できる。
視覚理解能力も改良され、チャートの読み取りやインタフェース理解におけるエラー率が半減したとされる。画像内の構造把握が強化され、技術図面やダッシュボード分析の場面で以前より安定した結果が得られる。
ツール呼び出し性能ではツールを安定して活用できる能力を評価するTau2-bench Telecomで98.7%を記録し、長時間タスクでも一貫して動作する能力が示された。複数工程を含むカスタマーサービス案件などを処理する例も示され、再予約や補償手続きなどの一連の作業を一括して処理できることが説明されている。
科学・数学領域では大学院レベルのGoogle-proof Q&Aベンチマーク GPQA DiamondでGPT5.2 Proが93.2%(GPT-5.2 Thinkingは92.4%)を示し、専門家レベルの数学能力を評価するFrontierMathでも過去最高水準(GPT-5.2 Thinkingで40.3%)を達成した。
安全性の面ではセンシティブな会話におけるモデルの応答を強化する取り組みを継続しており、自傷関連プロンプトやメンタルヘルス関連の応答が改善された。年齢推定モデルによる18歳未満のユーザーへの保護強化も段階的に導入され、過度な拒否といった既知の課題に取り組みつつ安全性と信頼性の全体的な水準向上を進められた。
GPT-5.2はChatGPTの有料プランで段階的に提供開始され、以前のGPT-5.1は3か月間のみレガシーモデルとして利用できる。APIプラットフォームではGPT-5.2 ThinkingがResponses APIおよびChat Completions APIでgpt-5.2、Instantがgpt-5.2-chat-latestとして、ProがResponses APIでgpt-5.2-proとして提供される。価格は入力100万トークンあたり1.75ドル、出力100万トークンあたり14ドルで、キャッシュ済み入力には割引が適用される。
「コーディングはAI任せ」でエンジニアは何をする? AWSが示す、開発の新たな“主戦場”
“AIエージェントの次”のトレンドは何か Gartnerが描く未来志向型インフラのハイプ・サイクル
生成AI、進化の鍵を握る「長期思考」 Sakana AIが挑む“人間のように試行錯誤するAI”への道筋Copyright © ITmedia, Inc. All Rights Reserved.