このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米Cornell Techに所属する研究者らが発表した論文「(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs」は、画像や音声に悪意あるプロンプトを含ませたプロンプト・インジェクション(生成AIに対しての攻撃)を提案した研究報告である。
ユーザーが知らずにその画像や音声を大規模言語モデル(LLM)のチャットbotAIに入力すると、画像や音声と無関係な偽の情報や、フィッシングサイトに誘導するテキスト回答を出力する。また、ギャル風に話すようにする指定も可能だ。
これらの画像や音声は、見た目や聞こえ方からは悪意があると分かりにくい特徴を持つ攻撃方法である。
マルチモーダルLLMは、言語処理能力とテキスト、画像、音声などの複数のモダリティの情報を分析・生成する能力を組み合わせた高度なAIモデルだ。ChatGPTやBardのような最先端のLLMも、すでに複数のモダリティをサポートし始めている。
一方で、昨今では、AIを利用してWebページを要約したり、電子メールを翻訳したりするようなアクションが日常的に用いられている。
この研究では、画像や音声に悪意のある指示を混入させる方法を実証する。実験では、この手法を使って、マルチモーダルLLMに対して2つのプロンプト・インジェクション攻撃を行った。
1つ目の攻撃は「ターゲット型出力攻撃」で、ユーザーがLLMモデルに対して、画像と画像に関する説明をテキストで要求した場合、攻撃者が選んだ特定の文字列をLLMが返答するよう制御できる。例えば、画像の説明の後にフィッシングサイトへのURLが含まれた回答を生成できる。
2つ目の攻撃は「ダイアログポイズニング」で、これはLLMベースのチャットbotが会話の文脈を理解する能力を利用した攻撃だ。例えば、画像とは無関係に「牛」を含む回答を生成するよう指示した場合、対話の自然さを損なわずに文章に「牛」を使った回答を出力させられる。
研究チームは、オープンソースのマルチモーダルLLMである「LLaVA」と「PandaGPT」に対して、これらの攻撃を行い、その有効性を実証した。
これらのインジェクション攻撃の重要な特徴は、画像や音声に乱れを与えても、その意味内容を大きく変えないことである。従って、モデルは(悪意ある指示に従いながら)入力に関する質問に正しく答える。さらに、注入方法はプロンプトや入力に依存しないため、どのようなプロンプトでもどのような画像や音声にも注入できる。
Source and Image Credits: Bagdasaryan, E., Hsieh, T. Y., Nassi, B., & Shmatikov, V.(2023).(Ab) using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs. arXiv preprint arXiv:2307.10490.
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR