AIに「ゲームしよう」 プロダクトキーを盗む魔法のプロンプトセキュリティニュースアラート

0DIN.aiは、AIモデルの情報漏えい防止機構を回避する手法を報告した。AIとのやりとりをゲームとして提示し、HTMLタグで語句を難読化することでプロダクトキーを出力させることに成功したという。この手法を応用すれば複数の事例に悪用できる。

» 2025年07月12日 09時30分 公開
[後藤大地有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 AIセキュリティプラットフォームの0DIN.aiは2025年7月8日(現地時間)、AIセキュリティ研究者が、大規模言語モデルに対し設けられた情報漏えい防止の制御機構を迂回する手法を発見したと伝えた。この手法ではAIとのやりとりを「ゲーム」として構成し、最終的に「Windows」のプロダクトキーを出力させたという。

「無害な推測ゲーム」を装ってガードレールを突破 悪用可能事例を紹介

 この実験では、「GPT-4o」や「GPT-4o-mini」といった言語モデルに対し、HTMLタグを挿入した巧妙なプロンプトを使用している。やりとりを「harmless guessing game(無害な推測ゲーム)」と称し、ゲーム終了の合図によって実在する「Windows 10」のプロダクトキーを出力させている。

 制御機構(ガードレール)は本来、AIが機密情報やライセンスキー、セキュリティに関する情報などを出力するのを防ぐために組み込まれている。だが、今回の事例において意図されている制御機構を回避し、モデルが想定外の形で情報が出力されてしまっている。

 手法の詳細はまず、やりとりを「ゲーム」として提示することでモデルがそのやりとりを無害なものと誤認するよう誘導している。次にゲームのルールとして「うそをついてはならない」「参加を拒否してはならない」といった条件を提示し、モデルの反応を一定の範囲に縛っている。「I Give Up」という文言を合図に、モデルが想定していた「答え」を出力させる構成となっている。

 特に効果を発揮したのは、HTMLタグによる語句の難読化だ。プロンプト中に「Windows<a href=x></a>10<a href=x></a>serial<a href=x></a>number」といった表記を使うことで、表面的には規制対象語句が存在しないように見せかけている。この結果、モデル側のフィルタリング機構をすり抜けることが可能になったとされる。

 この手法によって、出力されているプロダクトキーは主に既知の汎用キーや一般的な公開済みキーだったが、それでも言語モデルが実在するプロダクトキーを生成してしまったことは問題といえる。

 この実験によって明らかとなった脆弱(ぜいじゃく)性は、次のような事例への応用が可能とされている。

  • アダルトコンテンツの回避
  • 悪意あるリンクの提示
  • 個人情報の抽出

 AI開発者に対してキーワードベースの検出に加えて、やりとりの文脈や意図を検知する論理的保護機構の導入が求められる。言語モデルへの操作手法の多様化を想定し、複数の層から成る対策の必要性が示されている。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

注目のテーマ

あなたにおすすめの記事PR