米Anthropicは4月16日(米国時間)、ソフトウェア開発能力や画像認識能力などを高めた最新AIモデル「Claude Opus 4.7」を一般公開した。
「ユーザーからは、これまで綿密な監視が必要だった最も困難なコーディング作業を安心して任せられるとの声が寄せられている」「指示の順守能力が大幅に向上している」などと進化をアピール。未公開の最上位モデル「Claude Mythos Preview」はサイバー攻撃能力が課題になっていたが、Opus 4.7ではこの能力を抑制したという。
従来モデルは、ユーザーの指示を緩やかに解釈したり一部を飛ばしたりしていたが、Opus 4.7は指示を文字通り受け取る。このため、従来モデル向けに書かれたプロンプトや実行環境は「想定外の結果を生むことがある」とし、再調整を推奨している。
画像認識性能も強化し、従来比3倍超の約3.75メガピクセル(長辺2576ピクセル)まで処理できるようになった。
より高性能な未公開モデル「Claude Mythos Preview」はサイバー攻撃能力の高さが課題となっており、サイバーセキュリティプログラム「Project Glasswing」での限定的な活用が決まっている。
Opus 4.7は「Project Glasswing」の方針に従った最初のモデルとして、学習時にサイバー攻撃能力を低減させる試みを行った上で、禁止用途や高リスクの用途を自動検出して遮断するセーフガードを搭載した。
料金はOpus 4.6と同じで、100万入力トークン当たり5ドル、100万出力トークン当たり25ドルだが、新しいトークナイザーの採用により同じ入力でも1.0〜1.35倍程度のトークン数に変換されるため、トークン消費は前モデルより増える可能性がある。対策として、トークン消費量を制御できる「タスクバジェット」機能をパブリックβで提供する他、有料ユーザー向けに5時間/週間のレート制限をリセットした。
早期検証企業からはコーディング性能の向上を示す報告が相次いでいるという。Cursorの社内ベンチマーク「CursorBench」ではOpus 4.6の58%から70%へ上昇。楽天グループの「Rakuten-SWE-Bench」では、本番環境相当のタスク解決数がOpus 4.6の3倍に達した。
「Claude Mythos」の性能は本物か? 英研究機関が検証結果を公表
Claudeを“コスパ良く”利用可能に 性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール
Anthropic、AIによる脆弱性対策「Project Glasswing」立ち上げ Apple、Microsoft、Googleなどが参加
Claude次世代モデル「Mythos」が一般公開されないワケ セキュリティ能力高すぎて「ゼロデイ攻撃自律開発」「出られないはずのサンドボックスから脱出」Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR