「GPT-5.5」発表　Claude Mythos Previewとの差は（2/2 ページ）

[ITmedia] PC用表示関連情報

LINE

Hatena

前のページへ | 　　　　　　

サイバーセキュリティ評価「CyberGym」の結果

長時間のソフトウェア開発タスクを評価するExpert-SWEの結果

ホワイトカラー業務を想定したGDPvalでの比較

遺伝学・定量生物学タスクを扱うGeneBenchの結果

実際のPC環境を操作する能力を測るOSWorld-Verifiedの結果

通信分野の顧客対応ワークフローを評価するTau2-bench Telecomの結果

コマンドライン上の複雑な作業を評価するTerminal-Bench 2.0の結果

前のページへ | 　　　　　　

「Claude Opus 4.7」登場　難関コーディングを「任せきれる」レベルに、画像認識は解像度3倍超
米Anthropicが最新AIモデル「Claude Opus 4.7」の一般提供を開始。前世代の「Opus 4.6」からソフトウェア開発能力と画像認識能力を強化したほか、指示への忠実度や長時間タスクの安定性も向上させている。
「Qwen3.6-27B」登場　グラボ1枚で一部「Claude Opus 4.5」に迫る性能うたう
中国Alibabaは、オープンなAIモデル「Qwen3.6-27B」を発表した。デスクトップPC用GPUに収まるサイズでありながら、高いコーディング性能をうたっている。
「Claude Mythos」の性能は本物か？　英研究機関が検証結果を公表
英国政府の研究機関AISIはAnthropicの新モデル「Mythos」が専門家レベルのサイバー攻撃を自律的に完遂できることを確認した。高い攻撃性能が示されたことを受け、AISIは組織に基本対策の重要性を呼びかけている。