従来の生成AIモデルでは、「難しい学術テストをどれだけ正確に解けるか」という点が重視されてきたが、GDPvalは「経済的価値のある実務タスクを計測する」ことに重きを置いてる。GDPvalの「GDP」は、お察しの方もいると思うが「国内総生産（Gross Domestic Product）」に由来する。

→実際のタスクに対するモデルのパフォーマンスを測定する（GDPvalの説明）

　この指標では「弁護士」「看護師」「ソフトウェアエンジニア」を始めとする44の職種で求められる数百に渡るタスクを実行させて、その成果を「専門家（人間）が実施した結果」と比較して、モデルの優劣を決めることが特徴だ。

　OpenAIによると、人間に対して「勝利」または「引き分け」となった割合は、GPT-5.1では38.8％だったのに対して、GPT-5.2では70.9％へと大幅に上昇したという。これは同社がGPT-5.2について「初めて人間のエキスパート水準に達した」と主張する根拠となっている。

　ただし、GDPvalは「業務遂行能力」を推し量る指標ではなく、あくまでも一度の指示で行えるタスクの遂行能力を見る指標だ。実際の業務でありがちな「曖昧な指示の解釈」「人間関係の調整」「長期に渡るプロジェクトの展開を把握した上でのタスク管理」といったものは評価に含まれない。

　つまり、「誰かの仕事を代替する能力」ではなく、「誰かのタスクを代替して能力と効率を引き上げるための指標」と言い換えられる。AIに置き換えられるタスクの幅が急拡大したと捉えればいい。

OpenAIは、生成AI（LLM：大規模言語モデル）の指標として「GDPval」を提唱している

　なお、GDPvalでの計測結果として「人間の専門家より11倍以上速く、コストは1％未満で済む」とも報告されている。この成果が多くの業務現場で再現させるようになれば、「持っている企業」と「持っていない企業」の力の差は歴然としてくるはずだ。

従来指標でもパフォーマンスを改善

　もちろん、GPT-5.2では、従来の評価軸に基づくパフォーマンス指標も改善している。

　コーディング力を評価する「SWE-Bench」、ツール実行能力を測る「Terminal-Bench」、学力テストに相当する「ARC-AGI」「Humanity's Last Exam」、数学の解答生成を行う「AIME」などの結果は以下の通りだ。

主要な生成AI（LLM）テストの結果

「ネイティブファイル」の取り扱いも成熟

AppleがGoogleの「Gemini」とクラウド技術を採用／Googleの動画生成AIモデルが「Veo 3.1」に　縦型動画にも対応
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、1月11日週を中心に公開された主なニュースを一気にチェックしましょう！
Googleから「Gemini 3」登場／xAIが新型AIモデル「Grok 4.1」を公開
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、11月16日週を中心に公開された主なニュースを一気にチェックしましょう！
MicrosoftとOpenAIが「拘束力のない覚書」を締結　“次のパートナーシップ”の最終合意に向けた取り組みを推進
MicrosoftとOpenAIが、次のパートナーシップの最終合意に向けて「拘束力のない覚書」を締結した。これに併せて、OpenAIが「非営利組織」と「営利企業」に関する声明を発表。
日本での展開に注力するOpenAI――「AIエージェントの1年が始まる」とライトキャップCOOが語る理由
OpenAIの商業部門において製品戦略などを担当するブラッド・ライトキャップCOO（最高執行責任者）が、日本法人設立1周年に当たってインタビューに応じた。同社が提唱する「エージェントの1年」たる2025年がどのような年になるのか、聞いてみよう。
“暖かみのある会話”を実現――OpenAIの新言語モデル「GPT-4.5」は何が変わったのか？
OpenAIの新言語モデル「GPT-4.5」のリサーチプレビュー版をリリースした。従来の「GPT-4」と何が変わったのか、実際に試しつつ解説する。【更新】

前のページへ 1|2|3|4|5|6 次のページへ

SpecialPR

アクセストップ10

2026年06月27日更新

Apple製品が一斉値上げ、Mac Studioは9万円超も　主要モデルの新価格まとめ（2026年06月25日）
血管の健康状態も可視化！　サブスク不要で「振動通知」を備えた意欲作のスマートリング「RingConn Gen 3」を試す（2026年06月25日）
手首の負担を減らす“逆チルト”が秀逸！　Razer初の多機能エルゴキーボード「Pro Type Ergo」はオフィスの救世主に（2026年06月26日）
Gemini搭載「Google Home スピーカー」は買いか？　6年ぶりの新モデルを試して分かった賢さと課題が見え隠れする“次世代機”の現在地（2026年06月24日）
実売2000円台とコスパ最強だけど玄人向け？　断線や充電専用ケーブルも一目で判明するXYZA「USB-C CABLE CHECKER 2」の実力（2026年06月26日）
8980円の「SwitchBot 屋外パンチルトカメラ5MP」を試す　約500万画素で人物追跡、有線LAN接続も（2026年06月24日）
ビックカメラがBTOデスクトップPCの販売を開始（2026年06月26日）
間もなく登場するWindows 11次期アップデート「26H2」で何が変わる？　2027年に向けたUI進化と高速化（2026年06月23日）
カジュアルゲーマーの最適解になる？　日本HPのゲーミングノートPC「HyperX OMEN 15」のIntelモデルを試す（2026年06月25日）
Windows 10の個人向け「拡張セキュリティ更新（ESU）」提供期間延長　2027年10月12日まで利用可能（2026年06月26日）

ランキングトップ30

最新トピックスPR

過去記事カレンダー

2026年

2025年

2024年

2023年

2022年

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2012年

2011年

2010年

2009年

2008年

2007年

2006年

2005年

2004年

2003年

Feed Back

利用規約

ITmediaはアイティメディア株式会社の登録商標です。

危機の演出？ それとも本当の“焦り”？ OpenAI「コード・レッド」の内実：本田雅一のクロスオーバーデジタル（3/6 ページ）

OpenAIが提唱する新指標「GDPval」とは？