「マルウェア入り画像」で生成AIにサイバー攻撃 入力すると回答結果をハック、悪意サイトへの誘導も:Innovative Tech
米Cornell Techに所属する研究者らは、画像や音声に悪意あるプロンプトを含ませたプロンプト・インジェクション(生成AIに対しての攻撃)を提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米Cornell Techに所属する研究者らが発表した論文「(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs」は、画像や音声に悪意あるプロンプトを含ませたプロンプト・インジェクション(生成AIに対しての攻撃)を提案した研究報告である。
ユーザーが知らずにその画像や音声を大規模言語モデル(LLM)のチャットbotAIに入力すると、画像や音声と無関係な偽の情報や、フィッシングサイトに誘導するテキスト回答を出力する。また、ギャル風に話すようにする指定も可能だ。
これらの画像や音声は、見た目や聞こえ方からは悪意があると分かりにくい特徴を持つ攻撃方法である。
マルチモーダルLLMは、言語処理能力とテキスト、画像、音声などの複数のモダリティの情報を分析・生成する能力を組み合わせた高度なAIモデルだ。ChatGPTやBardのような最先端のLLMも、すでに複数のモダリティをサポートし始めている。
一方で、昨今では、AIを利用してWebページを要約したり、電子メールを翻訳したりするようなアクションが日常的に用いられている。
この研究では、画像や音声に悪意のある指示を混入させる方法を実証する。実験では、この手法を使って、マルチモーダルLLMに対して2つのプロンプト・インジェクション攻撃を行った。
1つ目の攻撃は「ターゲット型出力攻撃」で、ユーザーがLLMモデルに対して、画像と画像に関する説明をテキストで要求した場合、攻撃者が選んだ特定の文字列をLLMが返答するよう制御できる。例えば、画像の説明の後にフィッシングサイトへのURLが含まれた回答を生成できる。
2つ目の攻撃は「ダイアログポイズニング」で、これはLLMベースのチャットbotが会話の文脈を理解する能力を利用した攻撃だ。例えば、画像とは無関係に「牛」を含む回答を生成するよう指示した場合、対話の自然さを損なわずに文章に「牛」を使った回答を出力させられる。
研究チームは、オープンソースのマルチモーダルLLMである「LLaVA」と「PandaGPT」に対して、これらの攻撃を行い、その有効性を実証した。
これらのインジェクション攻撃の重要な特徴は、画像や音声に乱れを与えても、その意味内容を大きく変えないことである。従って、モデルは(悪意ある指示に従いながら)入力に関する質問に正しく答える。さらに、注入方法はプロンプトや入力に依存しないため、どのようなプロンプトでもどのような画像や音声にも注入できる。
Source and Image Credits: Bagdasaryan, E., Hsieh, T. Y., Nassi, B., & Shmatikov, V.(2023).(Ab) using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs. arXiv preprint arXiv:2307.10490.
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- ChatGPTは「ハリー・ポッター」を読破済み? 生成AIで懸念される著作権侵害のリスクとは
日本企業でも、チャットAI「ChatGPT」の活用や導入検討が始まりつつある。一方、生成AIの出力結果によっては、第三者の著作権を侵害してしまうリスクも付きまわる。中でも懸念されるのは「学習した著作物に近い形で、コンテンツを生成する」というものだ。 - ChatGPTの利用を社内で許可すべき? 懸念される情報漏えいリスクとは
米OpenAIが発表した高性能対話AI「ChatGPT」。大きな盛り上がりを見せているが、利用禁止に踏み切る企業も少なくない。ChatGPTの利用することで、考えられる情報漏えいリスクとは何か。 - 空港のX線検査で“禁止物を検知されない”方法、中国の研究者らが開発 あるモノをカバンに入れるだけ
中国の北京航空航天大学やZhongguancun Laboratoryなどに所属する研究者らは、空港のX線セキュリティ検査の画像検出器を欺く手法を提案した研究報告を発表した。 - ChatGPTでフィッシングサイトを自動検出する方法 NTTセキュリティが開発 精度は98%以上
NTTセキュリティ・ジャパンに所属する研究者らは、ChatGPTでフィッシングサイトを検出する手法を提案した研究報告を発表した。 - “ダークウェブ”を学習した大規模言語モデル「DarkBERT」 韓国の研究者らが開発
韓国のKAISTとS2W Inc.に所属する研究者らは、ダークウェブに特化した大規模言語モデルを提案した研究報告を発表した。