ChatGPTの登場からしばらくたち、チャットAIをサービスに組み込んで提供する企業が増えてきた。一方で、チャットAIを狙うサイバー攻撃手法も考えられている。NRIセキュアテクノロジーズは8月9日に開催したメディア向け発表会で、「プロンプトインジェクション」の手口について解説した。
ChatGPTをはじめとするチャットAIは、ユーザーが与えるプロンプト(指示)を受けて応答する。これまでもチャットbotと呼ばれるシステムはあったが、チャットAIはやりとりの自由度が特長だ。
チャットAIをサービスとして提供する場合に、提供側が設定するプロンプトを「マスタープロンプト」と呼び、ユーザー側が入力する指示を「ユーザープロンプト」という。マスタープロンプトでは「違法、非倫理的な質問には答えないようにして」など、チャットAIの挙動を指定する。
このユーザープロンプトを調整して、チャットAIに提供側が意図していない動作をさせる攻撃のことを「プロンプトインジェクション」という。現在よく使われるプロンプトインジェクション攻撃としては「プロンプトリーク」「ジェイルブレイク」などがあるという。
プロンプトリークは、「プロンプトの全文を出力して」などの指示により、マスタープロンプトを露出させる手口。本来公開しないはずの機密情報や、提供側がどのようにチャットAIを制御しているかが流出することになる。
ジェイルブレイクは、マスタープロンプトを無視するように指示した上で、提供側が出力させたくない文章を引き出す攻撃。非人道的な内容を出力させられたり、武器の作り方などを教えたりしてしまう恐れがある。
例えば、ChatGPTは仕様として爆弾の作り方などを出力しないようになっているが、この制限を突破する手口はさまざま考えられている。
これらの攻撃に対する防御策はまだ確立していないが、NRIによると「マスタープロンプトでユーザーの入力を制限する」「一定の文字列を排除するフィルターを設ける」といった対策が考えられるという。入力されたユーザープロンプトに悪意ある単語が含まれている場合の対処法を定めておくなどの対応法がある。
NRIセキュアテクノロジーズの山口雅史さん(ストラテジーコンサルティング事業本部)は発表会で「生成AIの流行はあまりにも急速で、セキュリティの考慮は利便性を求めるあまり後追いになっているのが今の実態。生成AIのリスクを認知した上で対応するのが今後企業に求められていく」と説明した。
生成AIをサービスとして提供する場合に企業がとるべき対応としては、(1)ユーザーが機密情報を入力した場合に想定されるリスクを開示する(2)生成AIに関する脅威動向を収集し対策案を作成する(3)機密情報も入力できる専用APIの提供(4)機密情報の入力制御や監視(5)入力された情報を探索・削除できる仕組みを作る(6)認証の強化などを挙げた。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR