Claude Opus最新版「4.7」公開 「難しいコーディングも任せられる」「指示を無視せずちゃんと守る」 プロンプト再調整推奨
「ユーザーからは、これまで綿密な監視が必要だった最も困難なコーディング作業を安心して任せられるとの声が寄せられている」「指示の順守能力が大幅に向上している」
米Anthropicは4月16日(米国時間)、ソフトウェア開発能力や画像認識能力などを高めた最新AIモデル「Claude Opus 4.7」を一般公開した。
「ユーザーからは、これまで綿密な監視が必要だった最も困難なコーディング作業を安心して任せられるとの声が寄せられている」「指示の順守能力が大幅に向上している」などと進化をアピール。未公開の最上位モデル「Claude Mythos Preview」はサイバー攻撃能力が課題になっていたが、Opus 4.7ではこの能力を抑制したという。
従来モデルは、ユーザーの指示を緩やかに解釈したり一部を飛ばしたりしていたが、Opus 4.7は指示を文字通り受け取る。このため、従来モデル向けに書かれたプロンプトや実行環境は「想定外の結果を生むことがある」とし、再調整を推奨している。
画像認識性能も強化し、従来比3倍超の約3.75メガピクセル(長辺2576ピクセル)まで処理できるようになった。
より高性能な未公開モデル「Claude Mythos Preview」はサイバー攻撃能力の高さが課題となっており、サイバーセキュリティプログラム「Project Glasswing」での限定的な活用が決まっている。
Opus 4.7は「Project Glasswing」の方針に従った最初のモデルとして、学習時にサイバー攻撃能力を低減させる試みを行った上で、禁止用途や高リスクの用途を自動検出して遮断するセーフガードを搭載した。
料金はOpus 4.6と同じで、100万入力トークン当たり5ドル、100万出力トークン当たり25ドルだが、新しいトークナイザーの採用により同じ入力でも1.0〜1.35倍程度のトークン数に変換されるため、トークン消費は前モデルより増える可能性がある。対策として、トークン消費量を制御できる「タスクバジェット」機能をパブリックβで提供する他、有料ユーザー向けに5時間/週間のレート制限をリセットした。
早期検証企業からはコーディング性能の向上を示す報告が相次いでいるという。Cursorの社内ベンチマーク「CursorBench」ではOpus 4.6の58%から70%へ上昇。楽天グループの「Rakuten-SWE-Bench」では、本番環境相当のタスク解決数がOpus 4.6の3倍に達した。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「Claude Mythos」の性能は本物か? 英研究機関が検証結果を公表
英国政府の研究機関AISIはAnthropicの新モデル「Mythos」が専門家レベルのサイバー攻撃を自律的に完遂できることを確認した。高い攻撃性能が示されたことを受け、AISIは組織に基本対策の重要性を呼びかけている。
Claudeを“コスパ良く”利用可能に 性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール
米Anthropicは、性能が異なるAIモデルを“適材適所”で稼働させ、自律的にタスクをこなす際のコストパフォーマンスを高める「The advisor strategy」(アドバイザー戦略)を発表した。
Anthropic、AIによる脆弱性対策「Project Glasswing」立ち上げ Apple、Microsoft、Googleなどが参加
Anthropicは、高度AIによるソフトウェア脆弱性の自動発見・悪用リスクに対応する「Project Glasswing」を発表した。未公開モデル「Claude Mythos Preview」を活用し、AppleやGoogleなど大手IT企業と連携して重要インフラの安全性を高める。攻撃転用を防ぐためモデルは一般公開せず、防御側に先行優位性を与える方針だ。
Claude次世代モデル「Mythos」が一般公開されないワケ セキュリティ能力高すぎて「ゼロデイ攻撃自律開発」「出られないはずのサンドボックスから脱出」
Anthropicは、現行モデルを凌ぐ性能を持つ次世代モデル「Claude Mythos Preview」の存在を公表した。攻撃への悪用リスクから一般公開を見送り、現在は防御目的の限定活用にとどめている。

