Anthropic、「Fable 5」の不可視だった蒸留の保護機能を可視化 「誤った判断」と謝罪
Anthropicは、AIモデル「Claude Fable 5」の特定の保護機能がユーザーに不透明な形で動作していたことを「誤った判断」と認め、謝罪した。モデルの蒸留に関する制限を検知した際、これまでは不可視のまま下位モデルへ切り替えていたが、今後は明示的な仕様に変更する。誤検知への対応と分類器の調整も進める。
米Anthropicは6月11日(現地時間)、同社の最上位AIモデル「Claude Fable 5」の保護機能(セーフガード)の一部について、その動作をユーザーに見える形に変更すると、Xで発表した。あわせて、これまで一部の保護機能を不可視にしていたことを「誤った判断だった」と認め、謝罪した。
Fable 5は6月9日に一般公開された。サイバーセキュリティ、生物・化学、モデルの「蒸留」(distillation)に関するリクエストを検知すると、Fable 5ではなく下位の「Claude Opus 4.8」が応答を引き継ぐ仕組みを備える。このうちサイバーセキュリティと生物・化学の分野では、モデルが切り替わった旨がユーザーに明示されていた。一方、フロンティアLLM開発に関わる蒸留分野については、保護機能が「不可視」のまま動作しており、ユーザーが気づかないうちに挙動が変わる状態になっていた。
Anthropicによると、今週から、蒸留分野でフラグが立ったリクエストも、サイバーセキュリティや生物・化学分野と同様に、目に見える形でOpus 4.8へ切り替えるようになる。ユーザーは、切り替えが起きるたびにそれを確認できる。API経由の場合は、フラグが立ったリクエストに対して拒否の理由が返されるようになり、サーバサイドでのフォールバックも数日以内に提供する予定だとしている。
同社は、当初これらの保護機能を不可視にした理由を次のように説明している。可視のセーフガードは外部から探られるため堅牢である必要があり、それを作り込むには時間がかかる。一方、不可視のセーフガードはより狭い範囲を対象にでき、誤検知をほとんど発生させずに素早く展開できる。Fable 5を迅速かつ安全にユーザーへ届けるため、後者を選んだ。
その上で同社は「それは誤ったトレードオフだった」「ユーザーは、どのような保護機能がなぜ設けられているのかを把握できるべきだった」とし、「バランスを正しく取れなかったことをお詫びする」と謝罪した。
ただし、保護機能を可視化するとジェイルブレイクの手がかりを与えやすくなるため、堅牢性を保つには、classifier(分類器)を改良する間、無害なリクエストが誤って引っかかる「誤検知」が増えることになるという。
同社はまた、サイバーセキュリティと生物・化学分野の分類器についても、無害なリクエストで作動しにくくなるよう調整を進めているとし、「この期間をできるだけ短く抑えるよう最善を尽くす」としている。
リクエストが誤ってフラグ付けされたと思われる場合は、Claude Codeでは「/feedback」を実行することで、Claude.aiやCoworkではフォールバックした応答に低評価を付けることで、APIリクエストについてはセーフガードの異議申し立てフォームから、報告できる。寄せられた報告は分類器の調整に役立てるとしている。
Fable 5の保護機能をめぐっては、一般公開直後から、無害なリクエストまでブロックされるとしてXで批判が広がっていた。今回の発表は、その批判を受けた方針転換に当たる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Anthropic、「Fable 5」のガードレールの仕組みを説明 課金の仕組みや設定変更方法など
Anthropicは、新AIモデル「Claude Fable 5」の過剰なブロックに対する挙動や管理方法を説明するヘルプ記事を公開した。セキュリティや生物学に関する質問を検知すると下位モデルへ自動で切り替わる機能の仕様、料金体系、設定オフの手順を明示。今後は誤検知を減らし、正当な研究や防衛作業の支援を目指す。
Fable 5、ガードレール(保護機能)が厳しすぎて「DNAとは?」にも答えず
Anthropicが一般公開した最上位AIモデル「Claude Fable 5」の保護機能が、無害なリクエストまで弾くとしてXなどで批判を集めている。Fable 5はサイバーセキュリティや生物・化学などに関する質問を検知すると、応答を下位の「Claude Opus 4.8」に切り替える。
Anthropic、ミュトス級AI「Claude Fable 5」を一般公開 保護機能解除版「Mythos 5」も限定提供
Anthropicは、新AIモデル「Claude Fable 5」を一般公開した。同社の最上位「Mythosクラス」に属し、これまで一般提供を見送ってきた水準の能力を、悪用を防ぐ保護機能とともに全ユーザーへ開放した。同時に、サイバー関連の保護機能を解除した上位版「Claude Mythos 5」を信頼できるパートナー向けに限定提供する。画像認識だけで「ポケモン ファイアレッド」をクリアするなどビジョン性能の大幅向上もアピールした。
“詫び石”か? 「Claude」有料ユーザーに追加クレジット付与、最大200ドル分 4月17日までに申請を
クレジットを過剰に消費させるバグが確認されており、ユーザーから批判を浴びていた。
