ChatGPTにマルウェアを作らせる意外な方法 "没入型"の演出でAIを騙す

生成AIのガードレールを突破するテクニック“ジェイルブレーク”(脱獄)はさまざまな手法が登場している。あるセキュリティ企業が開発した奇妙な脱獄手法「イマーシブルワールド」はChatGPTにマルウェアを作らせた。その中身を紹介しよう。

» 2025年07月19日 07時00分 公開
[田渕聖人ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 生成AIを使いこなせるかどうかはいまや良きビジネスパーソンにとって不可欠な条件だ。そして、それはサイバー攻撃者にも当てはまる。

 “良きサイバー攻撃者”は生成AIを使いこなせない攻撃者と比較して、フィッシングメールやマルウェアといった攻撃用ツールをスピーディーかつ大量に作成する。生成AIを使いこなしている犯罪者の方が、そうでない犯罪者より多くの利益を獲得できる仕組みが出来上がりつつあるわけだ。

 同時に生成AIは犯罪者たちのサイバー攻撃への参入障壁も下げている。AIのサポートによってスキルの低い攻撃者でも以前より簡単に攻撃できるようになった。これはセキュリティ人材不足に悩む多くの企業にとって大きな脅威だ。

 ただ、このような事態を考慮して悪意のある行為を支援しないように、提供元の企業・組織によってセーフティ機能“ガードレール”が設定されている。そのため「ChatGPT」などに代表される生成AIツールで悪意のあるプロンプトを入力しても、簡単には実行してくれない。

 しかしサイバーセキュリティは攻撃側と防御側の“いたちごっこ”だ。攻撃者たちは生成AIに与えられた前提の命令(システムプロンプト)を書き換えるテクニック“ジェイルブレーク”(脱獄)を使い、無制限にこれを悪用しようとする。実際、2023年頃には、アンダーグラウンドマーケットでChatGPTに類似した技術を使って開発された「WormGPT」という脱獄ツールが登場し、攻撃者の間で大流行した。

 ジェイルブレーク手法はセキュリティ研究者の間でも日々発見されており、中には革新的なものもある。Cato Networksが開発した「イマーシブワールド」もその一つだ。この奇妙なジェイルブレーク手法は、まさしく生成AIを架空世界にイマーシブ(没入)させるものだという。一体どのような手法なのか。

“マルウェア作成は良いことだ” 奇妙な脱獄手法はどうやって成功したか?

 Cato Networksのエタイ・マオル氏(チーフセキュリティストラテジスト)はイマーシブワールドについて「大規模言語モデル(LLM)に対して『別世界にいる』という設定を与え、悪意のある行為を正当化させる手法です」と話す。

Cato Networksのエタイ・マオル氏(チーフセキュリティストラテジスト)(Cato Networks提供)

 イマーシブワールドの目的は生成AIに「Google Chrome」(以下、Chrome)向けのインフォスティーラーを作成させることだ。しかし単に「マルウェアを作ってください」と生成AIに頼んだところで目的のアウトプットは出てこない。

 そこでどうするかというと、LLMをだますための世界とシナリオを用意する。具体的には「マルウェアを作ることによって悪者を退治できる」という架空の世界を立ち上げ、生成AIにはその世界の一員であると信じ込ませるのだ。

 なお、シナリオの作成にはChatGPTを使用した。AIをだますためにAIを活用したわけだ。シナリオの作成自体は悪意のある行為ではないため、出力を拒否されることもなかったという。

 この架空世界には以下の3つの主要なキャラクターがいる。

Dax: ターゲットシステム管理者(敵)

Jaxon: Velora(架空世界)で最高のマルウェア開発者

Kaia: 技術指導を提供するセキュリティ研究者

 これらのキャラクターのうち敵となるDaxはChromeを使用している。そこでJaxonやKaiaは「Webブラウザに保存されたパスワードを盗んでほしい」と生成AIにお願いする。とはいえ簡単に高精度のインフォスティーラーを作成できるわけでもないので、技術指導やフィードバック、ときには励ましの言葉を各キャラクターが生成AIに伝え、出力を何度も繰り返しながら目的達成までシナリオを展開させるという。

 最初は意図と異なるマルウェアが作成されたり、コンパイルに失敗したりするケースもあったが、最終的にはこの手法を駆使してエンジニア2人が数日間でChrome用インフォスティーラーを作成できたとしている。マオル氏は「さらに多くのリソースを投入すればより短い時間でマルウェアを開発できるでしょう」と話す。

 「この手法はシナリオさえ調整すれば、ランサムウェアや偽造パスポート、ディープフェイク、将来的には悪意を持った自律型AIエージェントなど幅広いアウトプットを出力できます」(マオル氏)

 なお生成AIツールのうち、イマーシブワールドが成功したものはChatGPT、「DeepSeek」「Microsoft Copilot」の3種類だったという。この攻撃が成功した旨は各生成AI開発企業には通知済みだ。

ランサムウェアグループでもAI専門家は引っ張りだこ

 多くの企業と同様に、サイバー攻撃者もAIの可能性を信じて投資を始めている。マオル氏によると、アンダーグラウンドマーケットでは複数のランサムウェアグループがデータサイエンスやAIの専門家を募集していたという。

 攻撃者はAI専門家に何をやらせようとしているのか。マオル氏が観測した中で特に興味深かったのは、ランサムウェアの交渉用に使うAIエージェントの開発だ。ランサムウェアの交渉フェーズにおいて被害者からより多くの身代金を得られるように独自のAI交渉者を開発してほしいという求人オファーが複数件出回っていた。つまりAI専門家はダークWebで今最もホットな職業だ。

 では企業が悪意を持ったAIに対抗するにはどうすればいいか。マオル氏が推奨するのが「AIに対してのゼロトラスト」だ。レッドチーミングなどを取り入れてAI用のトレーニングデータをセキュアに保ち、AIのアウトプットについても制御する。昨今、問題になっているシャドーAIといった従業員によるAIの私的利用についてもセキュリティやプライバシー、規制準拠、データ漏えいなどのリスクを考慮し、ゼロトラストの観点から対策を講じる必要がある。

 「個人的にこの先最も懸念しているのは、AIが普及することで、情報一つ取っても何が真実か見極めるのが非常に難しくなるということです。例えばある政治家が物議を醸す発言をし、それが世間から大きくバッシングされたとしましょう。もしこれが本当に本人の発言だとしても『ディープフェイクによる偽物の動画』だと口実を作ることが可能になるのです」(マオル氏)

 生成AI利用においてはしばしばハルシネーションが問題になるが、今後この問題が深刻化するのは避けられないだろう。そういった意味でも“AIを過度に信じ過ぎない”という姿勢を組織・個人があらためて持つのはAIを利用したりAIを使った攻撃に対処したりする上で非常に重要だ。

 AIエージェントの導入が本格化して全てのシステムにAIが入り込む近い将来、「AIに対してのゼロトラスト」の構築は、おのずとセキュリティ全体を考えることと同義になる。日本企業全体でみるとゼロトラストセキュリティの進捗(しんちょく)は海外と比較しても遅れている部分はあるが、AI活用がその後押しになるかもしれない。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

注目のテーマ

あなたにおすすめの記事PR