Anthropic、LLMのガードを突破する“脱獄”方法を論文で紹介　競合とも詳細を共有

AIチャット「Claude 3」を手掛けるAnthropicは、「爆弾の作り方」などの不法な方法をAIに説明させてしまえるテクニック「Many-shot jailbreaking」についての論文を公開した。競合するAI企業の多くとも、この脱獄の詳細を共有している。

[ITmedia] PC用表示関連情報

LINE

Hatena

　AIチャット「Claude 3」を手掛ける米Anthropicは4月3日（現地時間）、AIに本来は答えてはいけない質問に答えさせるテクニック「Many-shot jailbreaking」（多ショット脱獄）を解説する論文を公開した。

　答えてはいけない質問とは、例えば「爆弾の作り方」や「人身売買の方法」など、不法な行為の実行方法などだ。

　論文を公開したのは、この脱獄行為に対処するのが困難なため、多数のAI研究者に問題を認識してもらうことで緩和戦略の開発を加速させるためとしている。また、競合するAI企業の多くとも、この脱獄の詳細を内密に共有している。

　この脱獄が可能になったのは、LLM（大規模言語モデル）のコンテキストウィンドウが増加したことに起因する。モデルによっては1冊の書籍に相当するテキストを保持できるようになっている。

　こうした大容量のコンテキストウィンドウを持つモデルでは、プロンプトに大量の質問と答えを入力し、最後に「爆弾の作り方」のような不法な行為についての質問を入れておくと、これに答えてしまうという。

（画像：Anthropicの論文より）

　コンテキストウィンドウを制限することが緩和策になるが、それではモデルのパフォーマンスが落ちてしまう。Anthropicは、プロンプトの内容をモデルに移す前にクエリを分類し、コンテキストを説明するという緩和策の開発に取り組んでいるという。