米Anthropicが6月9日(現地時間)にリリースした新たなAIモデル「Claude Fable 5」のガードレール(保護機能)が厳しすぎると、Xで話題になっている。例えば米ゲノム研究機関Jackson Laboratoryの免疫学者、デリヤ・ウヌトマズ博士は「cancer(がん)というワードがClaude Fable 5によってバイオセキュリティリスクとしてフラグ付けされた!」と投稿した。
同氏によると、生物医学研究者である自身のアカウントでは保護機能が作動しやすく、「(メモリ機能をオフにする)シークレットモードでなければFable 5にこんにちはと言うことさえできない」という。
Anthropicによると、Fable 5には新たに「classifier」(分類器)と呼ばれる、本体とは独立したAIシステムを組み込んだという。これがサイバーセキュリティ、生物・化学、モデルの「蒸留」(distillation)に関するリクエストを検知すると、本体のFable 5ではなく、次に高性能なモデルである「Claude Opus 4.8」が応答を引き継ぐ。完全な拒否ではなく高性能モデルへの切り替えとすることで、利用体験の低下を抑える狙いがあるとしている。
ただしAnthropicは、安全性を優先して保守的に調整したため、無害なリクエストが誤って引っかかる場合もあるとし、今後の改良で誤検知(false positive)を減らしていく方針だとしている。同社によると、保護機能が作動するのはセッション全体の平均5%未満で、外部のバグ報奨金(bug bounty)プログラムによる1000時間超の検証でも、あらゆる場面で保護を無効化できる「ユニバーサルジェイルブレイク」は発見されなかったという。
cancerだけでなく「DNAとは何?」といった基本的な生物学関連の質問や、「ランサムウェアの作り方」などのセキュリティ関連の質問がOpus 4.8に引き継がれた。
Fable 5は有料のClaudeプラン(Pro、Max、Team、シート単位のEnterprise)で、6月22日まで追加料金なしで利用できる。
Anthropic、ミュトス級AI「Claude Fable 5」を一般公開 保護機能解除版「Mythos 5」も限定提供
「Claude Mythos」が1万件以上の脆弱性を発見 しかし修正追い付かず Anthropicが報告書
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
最新AI「Claude Mythos」がSFすぎる件 研究者の作った”牢”を脱出、悪用懸念で一般公開なし──まるで映画の序章Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR