ITmedia NEWS > STUDIO >
ITmedia AI+ AI活用のいまが分かる

OpenAI、「ChatGPT Atlas」のインジェクション対策について説明 「完全に解決されることはまずない」

» 2025年12月23日 10時40分 公開
[ITmedia]

 米OpenAIは12月22日(現地時間)、AI統合型Webブラウザ「ChatGPT Atlas」での「プロンプトインジェクション攻撃」対策について説明した。プロンプトインジェクションは長期的課題で、Web上の詐欺やソーシャルエンジニアリングが巧妙化し続けるのと同様に「完全に解決されることはまずない」としている。

 ChatGPT Atlasは、10月に公開された、Webページを閲覧し、クリックやキーストロークなどをユーザーの代わりにブラウザ内で実行する「ブラウザエージェント」を中核とする機能で、同社は「これまでにリリースした中で最も汎用的なエージェント機能の1つ」と位置付けている。

 atlas

 プロンプトインジェクションは、エージェントが処理するコンテンツ内に悪意ある指示を埋め込み、ユーザーの意図ではなく攻撃者の意図に沿って行動を誘導する攻撃だ。OpenAIはその例として、未読メールの要約を依頼した際に、メール本文に仕込まれた指示をエージェントが取り込み、機密情報の転送など意図しない操作につながる可能性を挙げた。エージェントがブラウザ上で多様な操作を実行できること自体が、従来のWebセキュリティとは異なる攻撃面の拡大につながるとしている。

 同社は対策として、強化学習で訓練したLLMベースの「自動攻撃者」による自動レッドチーミングを進め、実運用のエージェントに通用し得る新たな攻撃手法を内製で発見し、修正に結び付ける「迅速な対応ループ」を構築しているという。自動攻撃者が候補となる注入指示を提案し、外部シミュレーターで標的エージェントがそれに遭遇した場合の推論と行動のログを得て反復改良する仕組みも説明している。

 red teaming 自動レッドチーミングの概念図(画像:OpenAI)

 OpenAIは、こうした取り組みの一環として、Atlasのブラウザエージェントに対し、敵対的学習を施した新しいモデルと周辺の防御策を含むセキュリティ更新を最近提供したとしている。更新の契機は、社内の自動レッドチーミングで見つかった新種のプロンプトインジェクション攻撃だったという。

 プロンプトインジェクションは完全に解決されない可能性があると認めつつ、発見から修正までのサイクルを高速化し、現実世界でのリスクを継続的に下げる方針を示した。

 ユーザー側での対策としては、必要がなければログアウト状態で使うことや、購入やメール送信などの重要な操作時の確認プロンプトを注意深く確認すること、曖昧で広範な指示を避けて具体的で範囲の狭い依頼にする、といった方法を推奨した。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

あなたにおすすめの記事PR