危機の演出? それとも本当の“焦り”? OpenAI「コード・レッド」の内実本田雅一のクロスオーバーデジタル(3/6 ページ)

» 2026年01月19日 13時00分 公開
[本田雅一ITmedia]

OpenAIが提唱する新指標「GDPval」とは?

 GPT-5.2のリリースに先立って、OpenAIが強く打ち出し始めたのが「GDPval」という新しい性能指標だ。

 従来の生成AIモデルでは、「難しい学術テストをどれだけ正確に解けるか」という点が重視されてきたが、GDPvalは「経済的価値のある実務タスクを計測する」ことに重きを置いてる。GDPvalの「GDP」は、お察しの方もいると思うが「国内総生産(Gross Domestic Product)」に由来する。

 この指標では「弁護士」「看護師」「ソフトウェアエンジニア」を始めとする44の職種で求められる数百に渡るタスクを実行させて、その成果を「専門家(人間)が実施した結果」と比較して、モデルの優劣を決めることが特徴だ。

 OpenAIによると、人間に対して「勝利」または「引き分け」となった割合は、GPT-5.1では38.8%だったのに対して、GPT-5.2では70.9%へと大幅に上昇したという。これは同社がGPT-5.2について「初めて人間のエキスパート水準に達した」と主張する根拠となっている。

 ただし、GDPvalは「業務遂行能力」を推し量る指標ではなく、あくまでも一度の指示で行えるタスクの遂行能力を見る指標だ。実際の業務でありがちな「曖昧な指示の解釈」「人間関係の調整」「長期に渡るプロジェクトの展開を把握した上でのタスク管理」といったものは評価に含まれない。

 つまり、「誰かの仕事を代替する能力」ではなく、「誰かのタスクを代替して能力と効率を引き上げるための指標」と言い換えられる。AIに置き換えられるタスクの幅が急拡大したと捉えればいい。

GDPval OpenAIは、生成AI(LLM:大規模言語モデル)の指標として「GDPval」を提唱している

 なお、GDPvalでの計測結果として「人間の専門家より11倍以上速く、コストは1%未満で済む」とも報告されている。この成果が多くの業務現場で再現させるようになれば、「持っている企業」と「持っていない企業」の力の差は歴然としてくるはずだ。

従来指標でもパフォーマンスを改善

 もちろん、GPT-5.2では、従来の評価軸に基づくパフォーマンス指標も改善している。

 コーディング力を評価する「SWE-Bench」、ツール実行能力を測る「Terminal-Bench」、学力テストに相当する「ARC-AGI」「Humanity's Last Exam」、数学の解答生成を行う「AIME」などの結果は以下の通りだ。

主要テスト 主要な生成AI(LLM)テストの結果

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年06月27日 更新
  1. Apple製品が一斉値上げ、Mac Studioは9万円超も 主要モデルの新価格まとめ (2026年06月25日)
  2. 血管の健康状態も可視化! サブスク不要で「振動通知」を備えた意欲作のスマートリング「RingConn Gen 3」を試す (2026年06月25日)
  3. 手首の負担を減らす“逆チルト”が秀逸! Razer初の多機能エルゴキーボード「Pro Type Ergo」はオフィスの救世主に (2026年06月26日)
  4. Gemini搭載「Google Home スピーカー」は買いか? 6年ぶりの新モデルを試して分かった賢さと課題が見え隠れする“次世代機”の現在地 (2026年06月24日)
  5. 実売2000円台とコスパ最強だけど玄人向け? 断線や充電専用ケーブルも一目で判明するXYZA「USB-C CABLE CHECKER 2」の実力 (2026年06月26日)
  6. 8980円の「SwitchBot 屋外パンチルトカメラ5MP」を試す 約500万画素で人物追跡、有線LAN接続も (2026年06月24日)
  7. ビックカメラがBTOデスクトップPCの販売を開始 (2026年06月26日)
  8. 間もなく登場するWindows 11次期アップデート「26H2」で何が変わる? 2027年に向けたUI進化と高速化 (2026年06月23日)
  9. カジュアルゲーマーの最適解になる? 日本HPのゲーミングノートPC「HyperX OMEN 15」のIntelモデルを試す (2026年06月25日)
  10. Windows 10の個人向け「拡張セキュリティ更新(ESU)」提供期間延長 2027年10月12日まで利用可能 (2026年06月26日)
最新トピックスPR

過去記事カレンダー