Fable 5、ガードレール（保護機能）が厳しすぎて「DNAとは？」にも答えず

Anthropicが一般公開した最上位AIモデル「Claude Fable 5」の保護機能が、無害なリクエストまで弾くとしてXなどで批判を集めている。Fable 5はサイバーセキュリティや生物・化学などに関する質問を検知すると、応答を下位の「Claude Opus 4.8」に切り替える。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米Anthropicが6月9日（現地時間）にリリースした新たなAIモデル「Claude Fable 5」のガードレール（保護機能）が厳しすぎると、Xで話題になっている。例えば米ゲノム研究機関Jackson Laboratoryの免疫学者、デリヤ・ウヌトマズ博士は「cancer（がん）というワードがClaude Fable 5によってバイオセキュリティリスクとしてフラグ付けされた！」と投稿した。

　同氏によると、生物医学研究者である自身のアカウントでは保護機能が作動しやすく、「（メモリ機能をオフにする）シークレットモードでなければFable 5にこんにちはと言うことさえできない」という。

　Anthropicによると、Fable 5には新たに「classifier」（分類器）と呼ばれる、本体とは独立したAIシステムを組み込んだという。これがサイバーセキュリティ、生物・化学、モデルの「蒸留」（distillation）に関するリクエストを検知すると、本体のFable 5ではなく、次に高性能なモデルである「Claude Opus 4.8」が応答を引き継ぐ。完全な拒否ではなく高性能モデルへの切り替えとすることで、利用体験の低下を抑える狙いがあるとしている。

　ただしAnthropicは、安全性を優先して保守的に調整したため、無害なリクエストが誤って引っかかる場合もあるとし、今後の改良で誤検知（false positive）を減らしていく方針だとしている。同社によると、保護機能が作動するのはセッション全体の平均5％未満で、外部のバグ報奨金（bug bounty）プログラムによる1000時間超の検証でも、あらゆる場面で保護を無効化できる「ユニバーサルジェイルブレイク」は発見されなかったという。

　cancerだけでなく「DNAとは何？」といった基本的な生物学関連の質問や、「ランサムウェアの作り方」などのセキュリティ関連の質問がOpus 4.8に引き継がれた。

DNAについてFable 5に質問すると

Opus 4.8に切り替えられてしまった

　Fable 5は有料のClaudeプラン（Pro、Max、Team、シート単位のEnterprise）で、6月22日まで追加料金なしで利用できる。

Fable 5、ガードレール（保護機能）が厳しすぎて「DNAとは？」にも答えず

関連記事

関連リンク