危機の演出？　それとも本当の“焦り”？　OpenAI「コード・レッド」の内実：本田雅一のクロスオーバーデジタル（3/6 ページ）

OpenAIが「GPT-5.2」を発表する前に、同社が社内に「コード・レッド（緊急事態）」を宣言したという報道があった。これは、一体どういうことだったのか――よく見てみると、ある意味でのゲームチェンジを狙ったものだということが分かる。

[本田雅一，ITmedia]

OpenAIが提唱する新指標「GDPval」とは？

　GPT-5.2のリリースに先立って、OpenAIが強く打ち出し始めたのが「GDPval」という新しい性能指標だ。

　従来の生成AIモデルでは、「難しい学術テストをどれだけ正確に解けるか」という点が重視されてきたが、GDPvalは「経済的価値のある実務タスクを計測する」ことに重きを置いてる。GDPvalの「GDP」は、お察しの方もいると思うが「国内総生産（Gross Domestic Product）」に由来する。

→実際のタスクに対するモデルのパフォーマンスを測定する（GDPvalの説明）

　この指標では「弁護士」「看護師」「ソフトウェアエンジニア」を始めとする44の職種で求められる数百に渡るタスクを実行させて、その成果を「専門家（人間）が実施した結果」と比較して、モデルの優劣を決めることが特徴だ。

　OpenAIによると、人間に対して「勝利」または「引き分け」となった割合は、GPT-5.1では38.8％だったのに対して、GPT-5.2では70.9％へと大幅に上昇したという。これは同社がGPT-5.2について「初めて人間のエキスパート水準に達した」と主張する根拠となっている。

　ただし、GDPvalは「業務遂行能力」を推し量る指標ではなく、あくまでも一度の指示で行えるタスクの遂行能力を見る指標だ。実際の業務でありがちな「曖昧な指示の解釈」「人間関係の調整」「長期に渡るプロジェクトの展開を把握した上でのタスク管理」といったものは評価に含まれない。

　つまり、「誰かの仕事を代替する能力」ではなく、「誰かのタスクを代替して能力と効率を引き上げるための指標」と言い換えられる。AIに置き換えられるタスクの幅が急拡大したと捉えればいい。

OpenAIは、生成AI（LLM：大規模言語モデル）の指標として「GDPval」を提唱している

　なお、GDPvalでの計測結果として「人間の専門家より11倍以上速く、コストは1％未満で済む」とも報告されている。この成果が多くの業務現場で再現させるようになれば、「持っている企業」と「持っていない企業」の力の差は歴然としてくるはずだ。

従来指標でもパフォーマンスを改善

　もちろん、GPT-5.2では、従来の評価軸に基づくパフォーマンス指標も改善している。

　コーディング力を評価する「SWE-Bench」、ツール実行能力を測る「Terminal-Bench」、学力テストに相当する「ARC-AGI」「Humanity's Last Exam」、数学の解答生成を行う「AIME」などの結果は以下の通りだ。

主要な生成AI（LLM）テストの結果

「ネイティブファイル」の取り扱いも成熟

前のページへ | 次のページへ

AppleがGoogleの「Gemini」とクラウド技術を採用／Googleの動画生成AIモデルが「Veo 3.1」に　縦型動画にも対応
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、1月11日週を中心に公開された主なニュースを一気にチェックしましょう！
Googleから「Gemini 3」登場／xAIが新型AIモデル「Grok 4.1」を公開
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、11月16日週を中心に公開された主なニュースを一気にチェックしましょう！
MicrosoftとOpenAIが「拘束力のない覚書」を締結　“次のパートナーシップ”の最終合意に向けた取り組みを推進
MicrosoftとOpenAIが、次のパートナーシップの最終合意に向けて「拘束力のない覚書」を締結した。これに併せて、OpenAIが「非営利組織」と「営利企業」に関する声明を発表。
日本での展開に注力するOpenAI――「AIエージェントの1年が始まる」とライトキャップCOOが語る理由
OpenAIの商業部門において製品戦略などを担当するブラッド・ライトキャップCOO（最高執行責任者）が、日本法人設立1周年に当たってインタビューに応じた。同社が提唱する「エージェントの1年」たる2025年がどのような年になるのか、聞いてみよう。
“暖かみのある会話”を実現――OpenAIの新言語モデル「GPT-4.5」は何が変わったのか？
OpenAIの新言語モデル「GPT-4.5」のリサーチプレビュー版をリリースした。従来の「GPT-4」と何が変わったのか、実際に試しつつ解説する。【更新】

危機の演出？　それとも本当の“焦り”？　OpenAI「コード・レッド」の内実：本田雅一のクロスオーバーデジタル（3/6 ページ）

OpenAIが提唱する新指標「GDPval」とは？

従来指標でもパフォーマンスを改善

関連記事

記事ランキング

危機の演出？ それとも本当の“焦り”？ OpenAI「コード・レッド」の内実：本田雅一のクロスオーバーデジタル（3/6 ページ）

OpenAIが提唱する新指標「GDPval」とは？

従来指標でもパフォーマンスを改善

関連記事

記事ランキング

危機の演出？　それとも本当の“焦り”？　OpenAI「コード・レッド」の内実：本田雅一のクロスオーバーデジタル（3/6 ページ）