OpenAI、AIの経済的価値を測る新指標「GDPval」発表　トップ性能はClaude

公開 2025年09月26日 11時23分

[ITmedia]

印刷する

　米OpenAIは9月25日（現地時間）、AIモデルの性能を、幅広い業界や職種における人間の専門家と比較する新たなベンチマークテスト「GDPval」を発表した。同社は、汎用人工知能（AGI）が全人類に利益をもたらすことを確実にするというミッションの一環として、AIモデルが現実世界で人々をどのように支援できるかについての進捗状況を透明性をもって伝えるためにGDPvalを導入したとしている。

　GDPvalは、モデルが経済的に価値のある現実世界のタスクでどれだけ優れたパフォーマンスを発揮するかを追跡するために設計された新しい評価手法という。AIが労働に与える影響を測定する最初の一歩であると位置づけている。

　OpenAIは、GDPvalのような評価を通じて、将来のAIの改善に関する議論を推測ではなく証拠に基づかせることができるとし、AIモデルの社会的な影響を評価するためのより良いデータを得るために、この作業がモデルの進捗状況を追跡する科学に貢献することを望んでいるという。

　GDPvalの名称は、主要な経済指標である国内総生産（GDP）の概念から来ており、米国のGDPに最も貢献している主要産業の職業からタスクが抽出されている。この評価は、米国のGDPに貢献するトップ9のセクターから選ばれた44の職業にわたる、複雑なマルチモーダルタスクを対象としている。

GDPvalには44の職業の実際の仕事が含まれる（画像：OpenAI）

　GDPvalのタスクは、ソフトウェア開発者、弁護士、看護師、機械エンジニアなど、幅広い職種の経験豊富な専門家（平均14年以上の経験）によって作成され、現実の作業成果物（法務概要、エンジニアリングの設計図、顧客サポートの会話など）に基づいている。従来のベンチマークが学術的な試験形式（MMLUなど）に偏りがちだったのに対し、GDPvalは現実性と多様性において際立っており、単純なテキストプロンプトではなく、参照ファイルやコンテキストが付属し、ドキュメント、スライド、スプレッドシート、マルチメディアなどの成果物を要求する。この評価のフルセットには1320の専門タスクが含まれており、そのうち220のタスクがオープンソース化されている。

　業界の専門家が採点者となり、モデルが生成した成果物と人間の専門家が作成した成果物をブラインド形式で比較する評価の結果、今日の最先端モデルはすでに業界の専門家が生み出す仕事の質に近づいていることが判明したという。

　この評価には、OpenAIのモデル（GPT-4o、o4-mini、o3、GPT-5）に加えて、米AnthropicのClaude Opus 4.1、米GoogleのGemini 2.5 Pro、米xAIのGrok 4などの他社の主要モデルも含まれた。その中で、Claude Opus 4.1が最高のパフォーマンスを発揮したモデルで、人間の専門家による成果物と「同等かそれ以上」と評価された割合が、タスクの約半数に達した。