米Anthropicは6月11日(現地時間)、同社の最上位AIモデル「Claude Fable 5」の保護機能(セーフガード)の一部について、その動作をユーザーに見える形に変更すると、Xで発表した。あわせて、これまで一部の保護機能を不可視にしていたことを「誤った判断だった」と認め、謝罪した。
Fable 5は6月9日に一般公開された。サイバーセキュリティ、生物・化学、モデルの「蒸留」(distillation)に関するリクエストを検知すると、Fable 5ではなく下位の「Claude Opus 4.8」が応答を引き継ぐ仕組みを備える。このうちサイバーセキュリティと生物・化学の分野では、モデルが切り替わった旨がユーザーに明示されていた。一方、フロンティアLLM開発に関わる蒸留分野については、保護機能が「不可視」のまま動作しており、ユーザーが気づかないうちに挙動が変わる状態になっていた。
Anthropicによると、今週から、蒸留分野でフラグが立ったリクエストも、サイバーセキュリティや生物・化学分野と同様に、目に見える形でOpus 4.8へ切り替えるようになる。ユーザーは、切り替えが起きるたびにそれを確認できる。API経由の場合は、フラグが立ったリクエストに対して拒否の理由が返されるようになり、サーバサイドでのフォールバックも数日以内に提供する予定だとしている。
同社は、当初これらの保護機能を不可視にした理由を次のように説明している。可視のセーフガードは外部から探られるため堅牢である必要があり、それを作り込むには時間がかかる。一方、不可視のセーフガードはより狭い範囲を対象にでき、誤検知をほとんど発生させずに素早く展開できる。Fable 5を迅速かつ安全にユーザーへ届けるため、後者を選んだ。
その上で同社は「それは誤ったトレードオフだった」「ユーザーは、どのような保護機能がなぜ設けられているのかを把握できるべきだった」とし、「バランスを正しく取れなかったことをお詫びする」と謝罪した。
ただし、保護機能を可視化するとジェイルブレイクの手がかりを与えやすくなるため、堅牢性を保つには、classifier(分類器)を改良する間、無害なリクエストが誤って引っかかる「誤検知」が増えることになるという。
同社はまた、サイバーセキュリティと生物・化学分野の分類器についても、無害なリクエストで作動しにくくなるよう調整を進めているとし、「この期間をできるだけ短く抑えるよう最善を尽くす」としている。
リクエストが誤ってフラグ付けされたと思われる場合は、Claude Codeでは「/feedback」を実行することで、Claude.aiやCoworkではフォールバックした応答に低評価を付けることで、APIリクエストについてはセーフガードの異議申し立てフォームから、報告できる。寄せられた報告は分類器の調整に役立てるとしている。
Fable 5の保護機能をめぐっては、一般公開直後から、無害なリクエストまでブロックされるとしてXで批判が広がっていた。今回の発表は、その批判を受けた方針転換に当たる。
Anthropic、「Fable 5」のガードレールの仕組みを説明 課金の仕組みや設定変更方法など
Fable 5、ガードレール(保護機能)が厳しすぎて「DNAとは?」にも答えず
Anthropic、ミュトス級AI「Claude Fable 5」を一般公開 保護機能解除版「Mythos 5」も限定提供
“詫び石”か? 「Claude」有料ユーザーに追加クレジット付与、最大200ドル分 4月17日までに申請をCopyright © ITmedia, Inc. All Rights Reserved.
Special
PR