危機の演出? それとも本当の“焦り”? OpenAI「コード・レッド」の内実本田雅一のクロスオーバーデジタル(3/6 ページ)

» 2026年01月19日 13時00分 公開
[本田雅一ITmedia]

OpenAIが提唱する新指標「GDPval」とは?

 GPT-5.2のリリースに先立って、OpenAIが強く打ち出し始めたのが「GDPval」という新しい性能指標だ。

 従来の生成AIモデルでは、「難しい学術テストをどれだけ正確に解けるか」という点が重視されてきたが、GDPvalは「経済的価値のある実務タスクを計測する」ことに重きを置いてる。GDPvalの「GDP」は、お察しの方もいると思うが「国内総生産(Gross Domestic Product)」に由来する。

 この指標では「弁護士」「看護師」「ソフトウェアエンジニア」を始めとする44の職種で求められる数百に渡るタスクを実行させて、その成果を「専門家(人間)が実施した結果」と比較して、モデルの優劣を決めることが特徴だ。

 OpenAIによると、人間に対して「勝利」または「引き分け」となった割合は、GPT-5.1では38.8%だったのに対して、GPT-5.2では70.9%へと大幅に上昇したという。これは同社がGPT-5.2について「初めて人間のエキスパート水準に達した」と主張する根拠となっている。

 ただし、GDPvalは「業務遂行能力」を推し量る指標ではなく、あくまでも一度の指示で行えるタスクの遂行能力を見る指標だ。実際の業務でありがちな「曖昧な指示の解釈」「人間関係の調整」「長期に渡るプロジェクトの展開を把握した上でのタスク管理」といったものは評価に含まれない。

 つまり、「誰かの仕事を代替する能力」ではなく、「誰かのタスクを代替して能力と効率を引き上げるための指標」と言い換えられる。AIに置き換えられるタスクの幅が急拡大したと捉えればいい。

GDPval OpenAIは、生成AI(LLM:大規模言語モデル)の指標として「GDPval」を提唱している

 なお、GDPvalでの計測結果として「人間の専門家より11倍以上速く、コストは1%未満で済む」とも報告されている。この成果が多くの業務現場で再現させるようになれば、「持っている企業」と「持っていない企業」の力の差は歴然としてくるはずだ。

従来指標でもパフォーマンスを改善

 もちろん、GPT-5.2では、従来の評価軸に基づくパフォーマンス指標も改善している。

 コーディング力を評価する「SWE-Bench」、ツール実行能力を測る「Terminal-Bench」、学力テストに相当する「ARC-AGI」「Humanity's Last Exam」、数学の解答生成を行う「AIME」などの結果は以下の通りだ。

主要テスト 主要な生成AI(LLM)テストの結果

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー

2026年