米Anthropicは6月10日(現地時間)、前日に一般公開した最上位AIモデル「Claude Fable 5」の保護機能(ガードレール)について、その仕組みや、リクエストがブロックされた際の挙動、自動切り替えの管理方法を説明するヘルプ記事を公開した。
Fable 5はサイバーセキュリティや生物学関連の質問を検知すると、応答を下位の「Claude Opus 4.8」に切り替える仕組みを備えるが、無害なリクエストまで弾かれるとしてXで批判が広がっていた。
同社の説明によると、Fable 5は全てのユーザーリクエストに対して自動の安全性チェックを実行し、3つの分野に該当する場合にブロックする。具体的には、エクスプロイトやマルウェア、攻撃ツールの作成などの「攻撃的なサイバーセキュリティ技術」、実験手法や分子メカニズムなどの「生物学・生命科学に関する質問」、モデルの「蒸留」に関するリクエスト、の3分野だ。
これらの保護機能は意図的に広く設定されており、認可されたセキュリティテストや無害な生物学研究などの正当な作業まで巻き込まれる可能性があるという。9日の発表の際にも、無害なリクエストをブロックしてしまうことが「一部のユーザーにとって不満の原因となることは承知しており、リリース後に安全対策を更新・改善していくことで、誤検知を減らすことを目指している」と語っていた。
サポートページによると、ブロックが発生した後の挙動は、自動切り替え機能の設定によって異なる。Claude、Claude Cowork、Claude Code、Claude Design、Claude for Microsoft 365では、この機能がデフォルトで有効になっている。この場合、ブロックされたリクエストは同じ会話の中で「Opus 4.8」によって再実行され、モデルが切り替わった旨の通知が表示される。切り替え後はモデル選択がOpusのまま維持されるが、いつでもFable 5に戻すことができる。ただし、リクエストの内容を変更せずに戻すと、元のリクエストが会話に残っているため、再び同じ保護機能でブロックされる可能性がある。Anthropicは、再試行の前にメッセージを編集することを勧めている。
自動切り替え機能は、Fable 5を初めて選択した時点でデフォルトで有効になる。[設定]→[機能]、Claude Codeでは[Config]→[MODEL&OUTPUT]から「メッセージにフラグが付いた場合にモデルを切り替える」をオフにすると、ブロック時にモデルを切り替える代わりに会話を一時停止し、メッセージを編集してFable 5で再試行するか、手動でOpusに送信するかを選べる。
課金についても説明があった。リクエストがFable 5の出力前にブロックされた場合は、すぐにOpusへ切り替わり、Opusの料金のみが課金される。一方、応答の途中でブロックされた場合は、ブロック前に生成された分はFable 5の料金で、残りはOpusの料金で課金される。
なお、Claude APIでは挙動が異なり、自動切り替えはデフォルトでは有効にならず、API利用者は自身で切り替えを設定する必要がある。
Anthropicは、ブロックされたリクエストがセキュリティや生物学と無関係に見える場合や、正当な作業が繰り返しブロックされる場合は、「フィードバックを送信」から報告するよう呼び掛けた。誤ってブロックされたリクエストの報告は、保護機能の精度向上に役立つとしている。同社は今後、デュアルユース(軍民両用)のサイバー防御や生物学研究に向けて利用枠を開放する方法を検討する方針で、安全システムの成熟に伴い、正当な生物学・防御的サイバーセキュリティの作業を支援していくとしている。
Fable 5、ガードレール(保護機能)が厳しすぎて「DNAとは?」にも答えず
Anthropic、ミュトス級AI「Claude Fable 5」を一般公開 保護機能解除版「Mythos 5」も限定提供
「Claude Mythos」が1万件以上の脆弱性を発見 しかし修正追い付かず Anthropicが報告書Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR