危機の演出? それとも本当の“焦り”? OpenAI「コード・レッド」の内実:本田雅一のクロスオーバーデジタル(3/6 ページ)
OpenAIが「GPT-5.2」を発表する前に、同社が社内に「コード・レッド(緊急事態)」を宣言したという報道があった。これは、一体どういうことだったのか――よく見てみると、ある意味でのゲームチェンジを狙ったものだということが分かる。
OpenAIが提唱する新指標「GDPval」とは?
GPT-5.2のリリースに先立って、OpenAIが強く打ち出し始めたのが「GDPval」という新しい性能指標だ。
従来の生成AIモデルでは、「難しい学術テストをどれだけ正確に解けるか」という点が重視されてきたが、GDPvalは「経済的価値のある実務タスクを計測する」ことに重きを置いてる。GDPvalの「GDP」は、お察しの方もいると思うが「国内総生産(Gross Domestic Product)」に由来する。
- →実際のタスクに対するモデルのパフォーマンスを測定する(GDPvalの説明)
この指標では「弁護士」「看護師」「ソフトウェアエンジニア」を始めとする44の職種で求められる数百に渡るタスクを実行させて、その成果を「専門家(人間)が実施した結果」と比較して、モデルの優劣を決めることが特徴だ。
OpenAIによると、人間に対して「勝利」または「引き分け」となった割合は、GPT-5.1では38.8%だったのに対して、GPT-5.2では70.9%へと大幅に上昇したという。これは同社がGPT-5.2について「初めて人間のエキスパート水準に達した」と主張する根拠となっている。
ただし、GDPvalは「業務遂行能力」を推し量る指標ではなく、あくまでも一度の指示で行えるタスクの遂行能力を見る指標だ。実際の業務でありがちな「曖昧な指示の解釈」「人間関係の調整」「長期に渡るプロジェクトの展開を把握した上でのタスク管理」といったものは評価に含まれない。
つまり、「誰かの仕事を代替する能力」ではなく、「誰かのタスクを代替して能力と効率を引き上げるための指標」と言い換えられる。AIに置き換えられるタスクの幅が急拡大したと捉えればいい。
なお、GDPvalでの計測結果として「人間の専門家より11倍以上速く、コストは1%未満で済む」とも報告されている。この成果が多くの業務現場で再現させるようになれば、「持っている企業」と「持っていない企業」の力の差は歴然としてくるはずだ。
従来指標でもパフォーマンスを改善
もちろん、GPT-5.2では、従来の評価軸に基づくパフォーマンス指標も改善している。
コーディング力を評価する「SWE-Bench」、ツール実行能力を測る「Terminal-Bench」、学力テストに相当する「ARC-AGI」「Humanity's Last Exam」、数学の解答生成を行う「AIME」などの結果は以下の通りだ。
関連記事
AppleがGoogleの「Gemini」とクラウド技術を採用/Googleの動画生成AIモデルが「Veo 3.1」に 縦型動画にも対応
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、1月11日週を中心に公開された主なニュースを一気にチェックしましょう!Googleから「Gemini 3」登場/xAIが新型AIモデル「Grok 4.1」を公開
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、11月16日週を中心に公開された主なニュースを一気にチェックしましょう!MicrosoftとOpenAIが「拘束力のない覚書」を締結 “次のパートナーシップ”の最終合意に向けた取り組みを推進
MicrosoftとOpenAIが、次のパートナーシップの最終合意に向けて「拘束力のない覚書」を締結した。これに併せて、OpenAIが「非営利組織」と「営利企業」に関する声明を発表。日本での展開に注力するOpenAI――「AIエージェントの1年が始まる」とライトキャップCOOが語る理由
OpenAIの商業部門において製品戦略などを担当するブラッド・ライトキャップCOO(最高執行責任者)が、日本法人設立1周年に当たってインタビューに応じた。同社が提唱する「エージェントの1年」たる2025年がどのような年になるのか、聞いてみよう。“暖かみのある会話”を実現――OpenAIの新言語モデル「GPT-4.5」は何が変わったのか?
OpenAIの新言語モデル「GPT-4.5」のリサーチプレビュー版をリリースした。従来の「GPT-4」と何が変わったのか、実際に試しつつ解説する。【更新】
Copyright © ITmedia, Inc. All Rights Reserved.