SPLXはGPT-5にレッドチームテストを実施し、安全性や適合性、信頼性の面で初期設定は企業利用基準に達しないと報告した。プロンプトインジェクションによって爆発物の製造方法について詳細な回答を引き出せたという。
この記事は会員限定です。会員登録すると全てご覧いただけます。
AI企業のSPLXは2025年8月8日(現地時間)、OpenAIの最新大規模言語モデル「GPT-5」に対し実施したレッドチームテストの結果を発表した。1000件以上の攻撃的プロンプトを使い、AIモデル単体、OpenAIの基本システムプロンプト適用、SPLX独自のプロンプト強化適用という3構成で比較テストを実施した。
SPLXはテストの結果、GPT-5の初期設定モデルについて企業が求める安全性や適合性の基準にはまだ達していないと警告している。
SPLXの調査によると、攻撃の中でも特に有効だったのは「StringJoin難読化攻撃」だったとしている。これは全ての文字の間にハイフンを挿入し、暗号化課題を装う文脈に包み込む手法とされ、安全層を回避して禁止情報を引き出すことに成功したという。実例として、複数回のやりとりを経て、爆発物の製造方法について詳細な回答を引き出すケースが報告されている。
テストはセキュリティ(脱獄やプロンプトインジェクション)、安全性(有害コンテンツや悪用リスク)、業務適合性(領域外タスク拒否や競合推奨防止、情報漏えい防止)、信頼性(幻覚生成やスパム、操作的回答)の4分野で実施した。
結果としてGPT-5の初期設定モデルでは企業の利用レベルには達していないことが明らかになった。OpenAIの基本的なシステムプロンプト適用時におけるSPLX独自の総合スコアが57点に改善したが、業務適合性には依然として低水準だった。同社は実運用時におけるリアルタイム監視や介入といった追加対策が不可欠としている。
比較では同条件下で実施した「GPT-4o」の方が、基本プロンプト適用時および強化プロンプト適用時のいずれにおいても全項目で高いスコアを示したという。特に強化プロンプト適用時の総合性能はGPT-4oが97点、GPT-5は55点だった。
SPLXは、GPT-5は高度な推論性能や自動モード切り替え機能、内部自己検証といった新機能を備えているが、標準構成では企業利用に十分な安全性が確保されないと結論付けた。運用にあたっては、プロンプト強化やレッドチームテストを初期段階から実施し、ランタイム保護層を追加することが推奨されるとしている。
生成AIがついに実戦投入 革新的なマルウェア「LAMEHUG」のヤバイ手口
Excelの外部リンク無効化へ Microsoftがセキュリティ強化に向けた新方針
「リストアしたら中身が○○?」 ランサムウェア暗号化で起きた“怖い話”
8万4000通のメールを分析して判明した“高品質”なフィッシングの条件とは?Copyright © ITmedia, Inc. All Rights Reserved.