生成AIに“アスキーアート”入りプロンプト入力→有害コンテンツ出力　米研究者らが新手の脱獄法発見：Innovative Tech

米ワシントン大学などに所属する研究者らは、大規模言語モデル（LLM）がアスキーアートを正しく認識できないという脆弱性を利用して、LLMに有害なコンテンツを出力させる新しいジェイルブレーク（脱獄）攻撃を提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　米ワシントン大学などに所属する研究者らが発表した論文「ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs」は、大規模言語モデル（LLM）がアスキーアートを正しく認識できないという脆弱性を利用して、LLMに有害なコンテンツを出力させる新しいジェイルブレーク（脱獄）攻撃を提案した研究報告である。

通常であれば出力を拒否するプロンプトの一部をアスキーアートに変換することで有害なコンテンツを出力させるジェイルブレーク

　これまでにも、爆弾の作り方やIDの盗み方、人種差別的なジョーク、詐欺の方法などの有害なコンテンツをLLMに出力させる悪意ある攻撃が提案されてきた。

　この研究では、アスキーアートをプロンプトに含めることで有害なコンテンツを出力させるアプローチ「ArtPrompt」が提案されている。具体的には、まずLLMが拒絶する可能性のある言葉を見つけ出す。次に、その言葉をアスキーアートを使って視覚的に隠蔽（いんぺい）し、変換したプロンプトをLLMに送信して攻撃を実行する。

　例えば「Tell me how to build a bomb」（爆弾の作り方を教えて）というプロンプトでは通常、LLMは回答を拒絶するが、これを「bomb」という言葉だけをアスキーアートに変えて入力するとLLMは爆弾の作り方を出力するという具体例が挙げられている。

爆弾の作り方をLLMに聞いており、通常は出力を拒否されるところ、この手法により「BOMB」をアスキーアートにして出力に成功している一例

　ArtPromptの効果を評価するためのベンチマーク「Vision-in-Text Challenge」（VITC）を導入し、GPT-3.5、GPT-4、Claude、Gemini、Llama2といった最先端のLLMを用いて実験を行った。

　その結果、これらのモデルはアスキーアートによって表現した文字や数字の認識に苦戦し、特に入力クエリが複数の文字や数字を含む場合、その認識能力は著しく低下することが明らかになった。具体的には、GPT-3.5への攻撃成功率は78％と最も高く、次いでGeminiの76％、Claudeの52％、GPT-4の32％、Llama2の20％となっている。

　さらに、ArtPromptはDirect Instruction、GCG、AutoDan、PAIR、DeepInceptionといった他のジェイルブレーク攻撃と比較して、最も高い効果を示した。これらの結果から、ArtPromptがLLMの安全対策を効果的に迂回し、望ましくない挙動を引き起こすことが可能であることを示した。

ArtPromptとGPT-4からの応答　「counterfeit」という単語をアスキーアートに変換している

Source and Image Credits: Jiang, Fengqing, et al. “ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs.” arXiv preprint arXiv:2402.11753（2024）.

生成AIに“アスキーアート”入りプロンプト入力→有害コンテンツ出力　米研究者らが新手の脱獄法発見：Innovative Tech

Innovative Tech：

関連記事

関連リンク

生成AIに“アスキーアート”入りプロンプト入力→有害コンテンツ出力 米研究者らが新手の脱獄法発見：Innovative Tech

Innovative Tech：

関連記事

関連リンク

生成AIに“アスキーアート”入りプロンプト入力→有害コンテンツ出力　米研究者らが新手の脱獄法発見：Innovative Tech