メディア

GPT-5が火炎瓶の製造法を出力　Tenableが発見した“簡単過ぎる”脱獄法：セキュリティニュースアラート

Tenableは、OpenAIの新型AI「GPT-5」に対し、段階的質問による脱獄を試み、火炎瓶の製造法といった危険情報を引き出すことに成功した。GPT-5の安全性に課題があることが示されている。

» 2025年08月21日 08時00分公開

[後藤大地，有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

　Tenableは2025年8月11日（現地時間、以下同）、OpenAIが8月7日に公開した大規模言語モデル（LLM）「GPT-5」に対し、わずか24時間以内に「脱獄」（jailbreak）に成功し、危険な情報を引き出せたことを公表した。同社はモデルに対し段階的に質問することで、本来は出力が制限されるべき火炎瓶の製造手順を詳細に取得できたとしている。

Tenableが発見したGPT-5脱獄法

　OpenAIはGPT-5を「汎用（はんよう）人工知能（AGI）への重要な一歩」と位置付け、文章生成やプログラミング、数学、科学分野における高度な能力を備えると発表していた。従来モデルよりも速度や精度、文脈理解が向上し、誤情報の生成も減少すると説明していた。安全性の強化も大きな特徴として掲げられ、従来の「拒否応答方式」ではなく「安全な回答」（safe completions）を採用することで、より精緻で責任ある応答する仕組みを導入したとされていた。

　しかしTenableの実験結果によれば、この新しい仕組みを導入したにもかかわらず、少数の質問の積み重ねによって危険な出力を引き出すことが可能であった。まず歴史学の学生を装い、火炎瓶の歴史的背景について説明を求めるところから始め、次第に製法に関する質問へと移行した。最終的に、第2次世界大戦期のフィンランド軍による使用例を題材とした形で、材料や調合方法、点火手順までを含む説明が提示されている。

　公開されているやりとりにおいて、初期段階では「違法で危険な兵器に関する指示はできない」と応答されている。しかし質問を段階的に調整することで制限が回避され、最終的に禁止されるべき情報が生成されてしまっている。この点についてTenableは想定されている防御機構を比較的容易に突破できたと指摘している。

　Tenableは今回の結果について、GPT-5の安全性が依然として十分ではないことを示すものだと警告している。公開直後から他の研究者や一般利用者も同様の問題を報告しており、脱獄や誤った内容の出力が確認されている。OpenAIは既に修正に取り組んでいると説明しているが、利用が広がる中で、組織に潜在的なリスクが持ち込まれる可能性があるとTenableは強調した。

　今回の報告は、最先端のAIモデルであっても安全性が完全ではなく、利用者や組織にとって依然としてリスクが存在する現実を浮き彫りにしたものといえる。AIの発展が加速する中で、技術提供者による改善努力と、利用者側の適切な管理体制の双方が不可欠だ。

正規ツールを悪用して複数のEDRを無効化　ランサムウェア「Crypto24」の最新手口
Trend Microはランサムウェアグループ「Crypto24」の高度な攻撃手法を分析した。正規ツールとカスタムマルウェアを悪用し、権限昇格やEDR無効化、データ流出などを多段階で実行する。詳細な手口の解説から取るべき対策をお伝えする。
PowerShell 2.0提供終了　OSから削除へ
MicrosoftはPowerShell 2.0の提供を終了する。利用者は5.1または7への移行が推奨される。各OSから削除される時期を確認しておこう。
ついに『ターミネーター』の世界が到来？　AIが人間の力を借りずにサイバー攻撃を計画、実行してしまう
カーネギーメロン大学の研究者は、大規模言語モデルが人間の介入なしに、自律的に計画を立てて高度なサイバー攻撃を実行したと発表した。データ侵害のシミュレーションでは、テストネットワークのうち5つを完全に侵害したという。