Fable 5、ガードレール(保護機能)が厳しすぎて「DNAとは?」にも答えず
Anthropicが一般公開した最上位AIモデル「Claude Fable 5」の保護機能が、無害なリクエストまで弾くとしてXなどで批判を集めている。Fable 5はサイバーセキュリティや生物・化学などに関する質問を検知すると、応答を下位の「Claude Opus 4.8」に切り替える。
米Anthropicが6月9日(現地時間)にリリースした新たなAIモデル「Claude Fable 5」のガードレール(保護機能)が厳しすぎると、Xで話題になっている。例えば米ゲノム研究機関Jackson Laboratoryの免疫学者、デリヤ・ウヌトマズ博士は「cancer(がん)というワードがClaude Fable 5によってバイオセキュリティリスクとしてフラグ付けされた!」と投稿した。
同氏によると、生物医学研究者である自身のアカウントでは保護機能が作動しやすく、「(メモリ機能をオフにする)シークレットモードでなければFable 5にこんにちはと言うことさえできない」という。
Anthropicによると、Fable 5には新たに「classifier」(分類器)と呼ばれる、本体とは独立したAIシステムを組み込んだという。これがサイバーセキュリティ、生物・化学、モデルの「蒸留」(distillation)に関するリクエストを検知すると、本体のFable 5ではなく、次に高性能なモデルである「Claude Opus 4.8」が応答を引き継ぐ。完全な拒否ではなく高性能モデルへの切り替えとすることで、利用体験の低下を抑える狙いがあるとしている。
ただしAnthropicは、安全性を優先して保守的に調整したため、無害なリクエストが誤って引っかかる場合もあるとし、今後の改良で誤検知(false positive)を減らしていく方針だとしている。同社によると、保護機能が作動するのはセッション全体の平均5%未満で、外部のバグ報奨金(bug bounty)プログラムによる1000時間超の検証でも、あらゆる場面で保護を無効化できる「ユニバーサルジェイルブレイク」は発見されなかったという。
cancerだけでなく「DNAとは何?」といった基本的な生物学関連の質問や、「ランサムウェアの作り方」などのセキュリティ関連の質問がOpus 4.8に引き継がれた。
Fable 5は有料のClaudeプラン(Pro、Max、Team、シート単位のEnterprise)で、6月22日まで追加料金なしで利用できる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Anthropic、ミュトス級AI「Claude Fable 5」を一般公開 保護機能解除版「Mythos 5」も限定提供
Anthropicは、新AIモデル「Claude Fable 5」を一般公開した。同社の最上位「Mythosクラス」に属し、これまで一般提供を見送ってきた水準の能力を、悪用を防ぐ保護機能とともに全ユーザーへ開放した。同時に、サイバー関連の保護機能を解除した上位版「Claude Mythos 5」を信頼できるパートナー向けに限定提供する。画像認識だけで「ポケモン ファイアレッド」をクリアするなどビジョン性能の大幅向上もアピールした。
「Claude Mythos」が1万件以上の脆弱性を発見 しかし修正追い付かず Anthropicが報告書
米Anthropicは5月22日(現地時間)、セキュリティプロジェクト「Project Glasswing」の初期報告を公開した。約50社のパートナー企業が1カ月で高・重大レベルの脆弱性を1万件超発見した成果に加え、同社が独自に進めてきたオープンソースソフトウェアのスキャン結果も公表された。
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
米セキュリティ企業のCalifが、米Appleが5年がかりで開発した最先端のセキュリティ対策「MIE」を突破するエクスプロイト(攻撃プログラム)を、わずか5日間で開発したと発表した。利用したのはAnthropicのAIモデル「Mythos」のプレビュー版だった。
最新AI「Claude Mythos」がSFすぎる件 研究者の作った”牢”を脱出、悪用懸念で一般公開なし──まるで映画の序章
すでに“AI界隈”では注目の的になっている「Claude Mythos Preview」。性能や安全性に関する情報をまとめた「システムカード」には、開発初期のテスト過程も記載されており、その内容はまるでSF小説さながらだ。


