全世界で再び利用できるようになった、米Anthropicの生成AIモデル「Claude Fable 5」。一部制限を緩和した特定ユーザー向けの「Claude Mythos 5」とともに復活を果たしたが、どういった経緯と対策を行ったのか。Anthropicがモデル再開にあわせて詳細を公開した。
Fableは現在、有料プランのPro、Max、Team、一部のEnterpriseで利用できる。サブスクリプション内で利用できるのは7月7日まで(ただし週間利用枠の50%まで)。それ以降は従量課金に移る。
今回の規制のきっかけは、一部で報道された通りAmazonのセキュリティチームがFable 5の安全対策をすり抜け、ソフトウェアの脆弱性を特定させる手口を米政府に報告したことだった。Fable 5にはもともと、危険なやり取りを検知して止める「分類器」と呼ぶ仕組みを軸にした多層的な安全対策を施していたが、Amazonの指摘でこれをすり抜けられる手口「ジェイルブレイク」の存在が判明した。
報告を把握した米政府は6月12日、安全保障上の懸念から輸出規制を指令。外国籍の利用者を対象から外す内容だったが、規制は即時発効で、Anthropicには国籍をその時点で確認する手段がなかったため、全ユーザーの利用停止を実施した。
ただ、Anthropicはこの手口で得られた脆弱性の検知性能自体については、「Mythosレベルの独自のサイバー能力を露呈するものではなかった」としており、同社のテストでは、Opus 4.8や「GPT-5.5」、「Kimi K2.7」でも、Fable 5がレポートで特定したものと同じ脆弱性を特定できたとしている。
それでも全停止が続く中、同社は復旧に向けて米政府と協調する道を選択。報告を受けた手口を検知して止められるよう改良版の分類器を開発した。同じ手口に該当するリクエストは、Opus 4.8に自動で切り替わるようになっている。同社によると、新しい分類器で問題の手口の99%以上を止められるようになった一方、通常のプログラミング作業でも無害なリクエストを誤って止める頻度は増えると認めており、今後精度を改善していくとしている。
こうした対策の根幹が、分類器の判定ラインを拡大する「安全マージン」だ。分類器は完璧ではなく、危険な指示を見逃すこともある。Anthropicは、明確に安全な依頼だけを通し、少しでも危険の可能性があれば止める設計を採用しているが、Fable 5ではこのマージンを従来より広げ、無害な依頼まで止まる頻度が増える代わりに、モデルを安全に広く提供できるようにした。
こうした安全策の結果、米商務省傘下のAIセキュリティ標準・革新センター(CAISI)の研究者が、従来の対策と今回の新たな対策の両方を検証した結果、新方式を「極めて強固」と評価したという。
またAnthropicは今回、AIが安全対策を回避するジェイルブレイクの深刻度を客観的に評価する共通基準が存在しないことを指摘した。同社はAmazon、Microsoft、Googleなど「Glasswing」の各パートナーとともに、ジェイルブレイクを「脱獄でどれだけ能力が上がるか」「悪用できる攻撃対象がどこまで広いか」「攻撃への転用にどれだけ手間がかかるか」「その手口がどれだけ入手しやすいか」の4つの観点で評価。重要インフラや金融システムへ影響するような深刻な攻撃は、確認次第すぐに暫定対策を展開するとした。
あわせて、報告を24時間態勢で監視する専門チームを新設し、研究者がFable 5の弱点を報告できる窓口「HackerOne」プログラムも開設する。
米政府との連携もさらに強める。6月2日に政府が発令した「先端AIに関する大統領令」を踏まえた取り組みで、安全保障上重要なモデルについて政府機関へ事前のアクセスと評価の機会を提供すること、重大なジェイルブレイクや悪用パターンを早期に共有すること、政府との共同研究に専任チームと計算資源を投じること、業界共通のセキュリティ管理と評価基準づくりに協力すること――これら4つの取り組みを進めるとした。
「Claude Fable 5」が帰ってくる 「Mythos 5」含む輸出規制解除へ Anthropic発表
Anthropic、「Claude Sonnet 5」公開──停止中のミュトスとは別にOpus級の性能を低価格で
米政府、Anthropicの「Mythos」(ミュトス)再開を一部容認──「Fable 5」は停止継続
「Fable 5」停止から2日、MicrosoftのナデラCEOがXに「エコシステムなきフロンティアは不安定」と投稿
「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR