AIが長時間タスクをこなす性能、想定を超えるスピードで成長 MythosとGPT-5.5がブレークスルーか
AIエージェントが自律的にタスクを処理できる時間が、研究機関の予想を上回る速さで伸びている。Anthropicの「Claude Mythos Preview」やOpenAIの「GPT-5.5」といった最新モデルが既存モデルの性能を大きく上回っているという。
AIエージェントが自律的にタスクを処理できる時間が、研究機関の予想を上回る速さで伸びている。複数の第三者機関による最新の評価では、米Anthropicの「Claude Mythos Preview」(以下、Mythos)や米OpenAIの「GPT-5.5」といった最新モデルが既存モデルの性能を大きく上回り、既存の評価環境が測定限界に達しつつあることが明らかになった。
米国の非営利研究機関METRは5月8日(現地時間、以下同)、Mythosの評価結果を公開し、同モデルが50%の確率で完遂できるソフトウェアエンジニアリング、機械学習、サイバーセキュリティに関するタスクの長さ(50%タイムホライズン)を「16時間以上」と算出した。METRは現行の測定に使用しているタスク群では、16時間を超える測定が信頼性に欠けると指摘し、同モデルの能力の上限を正確に評価できていないとした。
英国の政府機関AI Security Institute(AISI)は2月、AIモデルが80%の確率で完遂できるサイバーセキュリティ関連タスクの長さ(80%タイムホライズン)が2024年後半以降「4.7カ月ごとに倍増」していると推定。これは25年11月時点の試算「8カ月ごと」から大幅に加速している。
しかし、その後公開されたMythosとGPT-5.5はこの推定値をさらに上回った。AISIはこの成長スピードが新たなトレンドになるのか、これらのモデルが特殊なのかは不明だとしている。
METRとAISIは、AIの性能が想定を上回る速さで向上している状況を受けて、より高性能なモデルを評価できる手法を開発中だとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「Claude Mythos」の性能は本物か? 英研究機関が検証結果を公表
英国政府の研究機関AISIはAnthropicの新モデル「Mythos」が専門家レベルのサイバー攻撃を自律的に完遂できることを確認した。高い攻撃性能が示されたことを受け、AISIは組織に基本対策の重要性を呼びかけている。
GPT-5.5のサイバー攻撃能力は一部「Mythos超え」 英政府機関が評価
英国のAISIは、OpenAIの「GPT-5.5」が「Claude Mythos Preview」と同等のサイバー攻撃能力を持つとの評価を公表した。能力向上が業界共通の傾向である可能性が示唆されている。
Anthropicと協業のNEC、「Claude Code」をグループ3万人に展開 「Mythos」利用可否については「回答差し控える」
NECはAnthropicと協業し、「Claude Code」をグループ3万人の従業員に展開する。開発効率を高め、協業で目指す日本企業向けソリューションの共同開発を促進させる。

