GPT-5.2のリリースに先立って、OpenAIが強く打ち出し始めたのが「GDPval」という新しい性能指標だ。
従来の生成AIモデルでは、「難しい学術テストをどれだけ正確に解けるか」という点が重視されてきたが、GDPvalは「経済的価値のある実務タスクを計測する」ことに重きを置いてる。GDPvalの「GDP」は、お察しの方もいると思うが「国内総生産(Gross Domestic Product)」に由来する。
この指標では「弁護士」「看護師」「ソフトウェアエンジニア」を始めとする44の職種で求められる数百に渡るタスクを実行させて、その成果を「専門家(人間)が実施した結果」と比較して、モデルの優劣を決めることが特徴だ。
OpenAIによると、人間に対して「勝利」または「引き分け」となった割合は、GPT-5.1では38.8%だったのに対して、GPT-5.2では70.9%へと大幅に上昇したという。これは同社がGPT-5.2について「初めて人間のエキスパート水準に達した」と主張する根拠となっている。
ただし、GDPvalは「業務遂行能力」を推し量る指標ではなく、あくまでも一度の指示で行えるタスクの遂行能力を見る指標だ。実際の業務でありがちな「曖昧な指示の解釈」「人間関係の調整」「長期に渡るプロジェクトの展開を把握した上でのタスク管理」といったものは評価に含まれない。
つまり、「誰かの仕事を代替する能力」ではなく、「誰かのタスクを代替して能力と効率を引き上げるための指標」と言い換えられる。AIに置き換えられるタスクの幅が急拡大したと捉えればいい。
なお、GDPvalでの計測結果として「人間の専門家より11倍以上速く、コストは1%未満で済む」とも報告されている。この成果が多くの業務現場で再現させるようになれば、「持っている企業」と「持っていない企業」の力の差は歴然としてくるはずだ。
もちろん、GPT-5.2では、従来の評価軸に基づくパフォーマンス指標も改善している。
コーディング力を評価する「SWE-Bench」、ツール実行能力を測る「Terminal-Bench」、学力テストに相当する「ARC-AGI」「Humanity's Last Exam」、数学の解答生成を行う「AIME」などの結果は以下の通りだ。
AppleがGoogleの「Gemini」とクラウド技術を採用/Googleの動画生成AIモデルが「Veo 3.1」に 縦型動画にも対応
Googleから「Gemini 3」登場/xAIが新型AIモデル「Grok 4.1」を公開
MicrosoftとOpenAIが「拘束力のない覚書」を締結 “次のパートナーシップ”の最終合意に向けた取り組みを推進
日本での展開に注力するOpenAI――「AIエージェントの1年が始まる」とライトキャップCOOが語る理由
“暖かみのある会話”を実現――OpenAIの新言語モデル「GPT-4.5」は何が変わったのか?Copyright © ITmedia, Inc. All Rights Reserved.