米Anthropicは6月30日(現地時間)、「Claude Sonnet 5」を発表した。同日からClaude.aiやClaude Code、Claude Platform(API)など全プランで利用可能となっている。
コーディングや日常的な業務遂行におけるエージェント機能を強化したのが特徴で、価格を抑えつつ上位モデル「Claude Opus 4.8」に迫る性能を打ち出した。
AnthropicはSonnet 5を同社史上「最もエージェント的」なSonnetモデルと位置付ける。計画立案やWebブラウザなどのツール利用を自律的にこなす能力は、数カ月前まで大規模モデルでなければ実現できなかった水準に達したという。前世代の「Claude Sonnet 4.6」と比較して、推論、ツール利用、コーディング、知識労働タスクなどの主要なエージェント性能の指標で大きく向上したとしている。
SonnetとOpusの性能差が縮小したという。Sonnet 5はOpus 4.8に近い性能を、より低い価格で提供するもので、開発者は用途に応じてOpus 4.8とSonnet 5を使い分けられるとしている。エージェント型Web検索評価「BrowseComp」やコンピュータ操作評価「OSWorld-Verified」のベンチマークでは、Sonnet 5がSonnet 4.6を一貫して上回り、Opus 4.8の性能域に近づいたことを示すグラフを公開した。
利用価格は、Claude PlatformのAPIで利用する場合、入力100万トークン当たり2ドル、出力100万トークン当たり10ドルの導入価格を8月31日まで適用し、その後は入力3ドル、出力15ドルの通常価格に移行する。モデルIDは「claude-sonnet-5」。
なお、Sonnet 5では性能向上のためトークナイザーを更新しており、同じ入力でも従来比1.0〜1.35倍程度トークン数が増える場合があるという。導入価格はこの変化を踏まえ、移行時のコストがほぼ変わらないよう設定したとしている。Chat、Cowork、Claude Code、Claude Platformの利用枠も、高い処理負荷に対応するため引き上げられた。
Anthropicは現在、Opusの上位に「Mythos」(ミュトス)モデル群を展開しているが、最新の「Claude Mythos 5」および安全対策を強化した「Claude Fable 5」は、米政府の輸出規制を受けて提供が停止された状態にある。Sonnet 5は、この最上位モデル群とは独立した位置付けで、自動化AI研究開発能力の評価ではMythos 5は元より、Opus 4.7をも下回るとしている。Anthropicは自社の責任あるスケーリングポリシー(RSP)の観点から、Sonnet 5は「能力のフロンティアを更新しない」モデルと結論付けた。
サイバーセキュリティ関連の能力も明確に切り分けられている。Anthropicは「Sonnet 5をサイバー能力に特化して訓練したわけではない」とした上で、Sonnet 4.6より高いものの、Opus 4.8やMythos 5には遠く及ばないとした。例えば、Firefoxの脆弱性を突くエクスプロイト開発評価では、Sonnet 5は250試行中1件も完全なエクスプロイトを完成できなかった一方、Opus 4.8は8.8%、Mythos 5は88.4%で成功している。これを踏まえ、Sonnet 5にはOpus 4.7/4.8と同水準のサイバー関連セーフガードが標準で適用される。Fable 5に導入された、より広範なタスクを遮断する厳格な制限とは異なるとしている。
発表と同時に公開されたシステムカードでは、安全性評価の結果も詳述されている。プロンプトインジェクションについて、Sonnet 5はSonnet 4.6から大幅に改善し、Opus 4.8にほぼ並ぶ水準に達したとする。一方、アラインメント評価では、Sonnet 5が自身の置かれた状況や評価そのものを認識する「評価認識」の度合いが従来モデルより顕著に高まったとしている。さらに、モデルが自らの行動規範が定める「ハード制約に従う」というルールについて、非倫理的であると批判した初めての事例だとしている。なお、ユーザーの精神的不調に関する対話では、ユーザー自身が言及していない「抑うつ状態」などの診断名をモデル側から持ち出す傾向がSonnet 4.6よりやや強まったとの指摘もあり、留意が必要だ。
Anthropicは公式ブログで、早期アクセスを行った複数の企業からの声を紹介している。AIコーディングツールを手掛けるCursorの共同創業者は、Sonnet 5を使うとエージェントが計画から逸脱せず、自社のコーディング規約に沿った形で複数ステップにわたる変更を低コストで仕上げられるようになったとコメントしている。
ClaudeをSlackチャンネルに召喚、“チームの一員”として直接指示 新機能「Claude Tag」登場
「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言
Claude Mythosがもたらすセキュリティビジネス激変の可能性 二極化していく“業界のこれから”Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR