ITmedia AI＋
生成AI
AIが長時間タスクをこなす性能、想定を超えるスピードで成長　MythosとGPT-5.5がブレークスルーか

AIが長時間タスクをこなす性能、想定を超えるスピードで成長　MythosとGPT-5.5がブレークスルーか

公開 2026年05月14日 16時17分

[ITmedia]

印刷する

　AIエージェントが自律的にタスクを処理できる時間が、研究機関の予想を上回る速さで伸びている。複数の第三者機関による最新の評価では、米Anthropicの「Claude Mythos Preview」（以下、Mythos）や米OpenAIの「GPT-5.5」といった最新モデルが既存モデルの性能を大きく上回り、既存の評価環境が測定限界に達しつつあることが明らかになった。

　米国の非営利研究機関METRは5月8日（現地時間、以下同）、Mythosの評価結果を公開し、同モデルが50％の確率で完遂できるソフトウェアエンジニアリング、機械学習、サイバーセキュリティに関するタスクの長さ（50％タイムホライズン）を「16時間以上」と算出した。METRは現行の測定に使用しているタスク群では、16時間を超える測定が信頼性に欠けると指摘し、同モデルの能力の上限を正確に評価できていないとした。

METRによる、ソフトウェア関連タスクの50％タイムホライズン測定結果。Mythosの測定結果（グラフ右上）はグラフの上限値となっている（出典：公式ブログ）

　英国の政府機関AI Security Institute（AISI）は2月、AIモデルが80％の確率で完遂できるサイバーセキュリティ関連タスクの長さ（80％タイムホライズン）が2024年後半以降「4.7カ月ごとに倍増」していると推定。これは25年11月時点の試算「8カ月ごと」から大幅に加速している。

　しかし、その後公開されたMythosとGPT-5.5はこの推定値をさらに上回った。AISIはこの成長スピードが新たなトレンドになるのか、これらのモデルが特殊なのかは不明だとしている。