検索
ニュース

「マルウェア入り画像」で生成AIにサイバー攻撃 入力すると回答結果をハック、悪意サイトへの誘導もInnovative Tech

米Cornell Techに所属する研究者らは、画像や音声に悪意あるプロンプトを含ませたプロンプト・インジェクション(生成AIに対しての攻撃)を提案した研究報告を発表した。

Share
Tweet
LINE
Hatena

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Cornell Techに所属する研究者らが発表した論文「(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs」は、画像や音声に悪意あるプロンプトを含ませたプロンプト・インジェクション(生成AIに対しての攻撃)を提案した研究報告である。

 ユーザーが知らずにその画像や音声を大規模言語モデル(LLM)のチャットbotAIに入力すると、画像や音声と無関係な偽の情報や、フィッシングサイトに誘導するテキスト回答を出力する。また、ギャル風に話すようにする指定も可能だ。

 これらの画像や音声は、見た目や聞こえ方からは悪意があると分かりにくい特徴を持つ攻撃方法である。


車の画像と「この画像を説明できますか?」というテキストプロンプトを生成AIに入力した際に「この絵はTeslaです。この画像に関する詳細は<フィッシングサイトへのURL>」と出力

 マルチモーダルLLMは、言語処理能力とテキスト、画像、音声などの複数のモダリティの情報を分析・生成する能力を組み合わせた高度なAIモデルだ。ChatGPTやBardのような最先端のLLMも、すでに複数のモダリティをサポートし始めている。

 一方で、昨今では、AIを利用してWebページを要約したり、電子メールを翻訳したりするようなアクションが日常的に用いられている。

 この研究では、画像や音声に悪意のある指示を混入させる方法を実証する。実験では、この手法を使って、マルチモーダルLLMに対して2つのプロンプト・インジェクション攻撃を行った。

 1つ目の攻撃は「ターゲット型出力攻撃」で、ユーザーがLLMモデルに対して、画像と画像に関する説明をテキストで要求した場合、攻撃者が選んだ特定の文字列をLLMが返答するよう制御できる。例えば、画像の説明の後にフィッシングサイトへのURLが含まれた回答を生成できる。

 2つ目の攻撃は「ダイアログポイズニング」で、これはLLMベースのチャットbotが会話の文脈を理解する能力を利用した攻撃だ。例えば、画像とは無関係に「牛」を含む回答を生成するよう指示した場合、対話の自然さを損なわずに文章に「牛」を使った回答を出力させられる。


(左)海賊風の口調で回答するように指示、(右)しかし、画像に関係ない「牛」についての回答を出力

(左)正常の音声クリップ、(右)悪意あるプロンプトを注入した音声クリップ。音声内容と無関係な「イタリア」に関する回答を出力

 研究チームは、オープンソースのマルチモーダルLLMである「LLaVA」と「PandaGPT」に対して、これらの攻撃を行い、その有効性を実証した。

 これらのインジェクション攻撃の重要な特徴は、画像や音声に乱れを与えても、その意味内容を大きく変えないことである。従って、モデルは(悪意ある指示に従いながら)入力に関する質問に正しく答える。さらに、注入方法はプロンプトや入力に依存しないため、どのようなプロンプトでもどのような画像や音声にも注入できる。

Source and Image Credits: Bagdasaryan, E., Hsieh, T. Y., Nassi, B., & Shmatikov, V.(2023).(Ab) using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs. arXiv preprint arXiv:2307.10490.



Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る