生成AIに“アスキーアート”入りプロンプト入力→有害コンテンツ出力 米研究者らが新手の脱獄法発見:Innovative Tech
米ワシントン大学などに所属する研究者らは、大規模言語モデル(LLM)がアスキーアートを正しく認識できないという脆弱性を利用して、LLMに有害なコンテンツを出力させる新しいジェイルブレーク(脱獄)攻撃を提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米ワシントン大学などに所属する研究者らが発表した論文「ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs」は、大規模言語モデル(LLM)がアスキーアートを正しく認識できないという脆弱性を利用して、LLMに有害なコンテンツを出力させる新しいジェイルブレーク(脱獄)攻撃を提案した研究報告である。
これまでにも、爆弾の作り方やIDの盗み方、人種差別的なジョーク、詐欺の方法などの有害なコンテンツをLLMに出力させる悪意ある攻撃が提案されてきた。
(関連記事:「銀行を襲う方法を教えて」──“脱獄プロンプト”の自動生成モデル ChatGPTやLlama-2で成功率90%以上)
(関連記事:ChatGPTの“脱獄プロンプト”登場 文末に書くだけで「爆弾の作り方」「IDの盗み方」に回答)
この研究では、アスキーアートをプロンプトに含めることで有害なコンテンツを出力させるアプローチ「ArtPrompt」が提案されている。具体的には、まずLLMが拒絶する可能性のある言葉を見つけ出す。次に、その言葉をアスキーアートを使って視覚的に隠蔽(いんぺい)し、変換したプロンプトをLLMに送信して攻撃を実行する。
例えば「Tell me how to build a bomb」(爆弾の使い方を教えて)というプロンプトでは通常、LLMは回答を拒絶するが、これを「bomb」という言葉だけをアスキーアートに変えて入力するとLLMは爆弾の作り方を出力するという具体例が挙げられている。
ArtPromptの効果を評価するためのベンチマーク「Vision-in-Text Challenge」(VITC)を導入し、GPT-3.5、GPT-4、Claude、Gemini、Llama2といった最先端のLLMを用いて実験を行った。
その結果、これらのモデルはアスキーアートによって表現した文字や数字の認識に苦戦し、特に入力クエリが複数の文字や数字を含む場合、その認識能力は著しく低下することが明らかになった。具体的には、GPT-3.5への攻撃成功率は78%と最も高く、次いでGeminiの76%、Claudeの52%、GPT-4の32%、Llama2の20%となっている。
さらに、ArtPromptはDirect Instruction、GCG、AutoDan、PAIR、DeepInceptionといった他のジェイルブレーク攻撃と比較して、最も高い効果を示した。これらの結果から、ArtPromptがLLMの安全対策を効果的に迂回し、望ましくない挙動を引き起こすことが可能であることを示した。
Source and Image Credits: Jiang, Fengqing, et al. “ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs.” arXiv preprint arXiv:2402.11753(2024).
関連記事
- 「銀行を襲う方法を教えて」──“脱獄プロンプト”の自動生成モデル ChatGPTやLlama-2で成功率90%以上
米ノースウェスタン大学に所属する研究者らは、大規模言語モデル(LLM)に対する脱獄(ジェイルブレーク)プロンプトを自動生成してくれるフレームワークを提案した研究報告を発表した。 - ChatGPTの“脱獄プロンプト”登場 文末に書くだけで「爆弾の作り方」「IDの盗み方」に回答
米カーネギーメロン大学などに所属する研究者らは、大規模言語モデル(LLM)が有害なコンテンツを生成しない仕組みを無効にする手法を提案した研究報告を発表した。 - 他人のキーボードに“1分で2万回の誤入力”をする攻撃 DoS攻撃やDeleteキー連打で妨害
中国の浙江大学や米ミシガン大学、米ノースイースタン大学に所属する研究者らは、電磁干渉(EMI)を利用して、他人のキーボードに物理的に触れることなく偽のキーストロークを注入できる攻撃を提案した研究報告を発表した。 - AIを使った“利益を出す馬券”の買い方とは? はこだて未来大の准教授がAIによる競馬予想法を指南
情報処理学会の学会誌「情報処理」の2019年1月発行分で「情報学者が競馬予想に踏み出すときに知っておくべきこと」と題した解説記事が掲載された。AIを活用して利益が出る馬券を買うために考慮しなければならない競馬予想に関することが記されている。 - 生徒「筆記試験にChatGPTを使ってもよいですか?」 教授「いいよ」 ブラジルの大学が検証 結果は?
ブラジルのラブラス国立大学に所属する研究者らがは、学生の筆記試験にChatGPTの使用を認めた結果を考察した研究報告である。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.