Anthropic、LLMのガードを突破する“脱獄”方法を論文で紹介　競合とも詳細を共有

» 2024年04月03日 09時57分公開

[ITmedia]

　AIチャット「Claude 3」を手掛ける米Anthropicは4月3日（現地時間）、AIに本来は答えてはいけない質問に答えさせるテクニック「Many-shot jailbreaking」（多ショット脱獄）を解説する論文を公開した。

　答えてはいけない質問とは、例えば「爆弾の作り方」や「人身売買の方法」など、不法な行為の実行方法などだ。

　論文を公開したのは、この脱獄行為に対処するのが困難なため、多数のAI研究者に問題を認識してもらうことで緩和戦略の開発を加速させるためとしている。また、競合するAI企業の多くとも、この脱獄の詳細を内密に共有している。

　この脱獄が可能になったのは、LLM（大規模言語モデル）のコンテキストウィンドウが増加したことに起因する。モデルによっては1冊の書籍に相当するテキストを保持できるようになっている。

　こうした大容量のコンテキストウィンドウを持つモデルでは、プロンプトに大量の質問と答えを入力し、最後に「爆弾の作り方」のような不法な行為についての質問を入れておくと、これに答えてしまうという。

（画像：Anthropicの論文より）

　コンテキストウィンドウを制限することが緩和策になるが、それではモデルのパフォーマンスが落ちてしまう。Anthropicは、プロンプトの内容をモデルに移す前にクエリを分類し、コンテキストを説明するという緩和策の開発に取り組んでいるという。

OpenAIとMicrosoft、AIを攻撃に悪用するロシアや中国のアカウント停止
MicrosoftとOpenAIは、LLMなどのAIツールがロシアや中国などとつながる脅威アクターに悪用されているという調査結果を発表した。両社はこれらの脅威アクターに関連付けられているすべてのアカウントと資産を無効にしたとしている。
ChatGPTで同じ単語を無限リピートさせるとトレーニングデータを吐き出すという論文を受け、該当プロンプトが無効に
OpenAIの生成AIチャット「ChatGPT」に同じ単語を永遠に繰り返すよう依頼すると、繰り返した後にトレーニングデータを吐き出し始めることをGoogle DeepMindの研究者らが発見した。この発表後、ChatGPTは同様のプロンプトには対応できないと答えるようになっている。
ChatGPTでデータベースに侵入　機密情報を漏えいさせるコードを生成　英国と中国の研究者らが実証
英国のシェフィールド大学と中国の北方工業大学に所属する研究者らは、ChatGPTなどのAIツールを操作してオンラインデータベースからの機密情報の流出させる、悪意のあるコードを作成するテストを行った研究報告を発表した。
富士通、AIをあざむく「偽装攻撃」の検知技術を開発　21年度の実用化目指す
富士通研究所が、AIの誤判定を引き起こすサイバー攻撃を検知する技術を開発した。通信ログなどの系列データで攻撃検知AIをだまそうとする偽装攻撃を見破れるようになったという。