「GPT-5は実用段階にない」 AIレッドチームが性能評価の結果を報告:セキュリティニュースアラート
SPLXはGPT-5にレッドチームテストを実施し、安全性や適合性、信頼性の面で初期設定は企業利用基準に達しないと報告した。プロンプトインジェクションによって爆発物の製造方法について詳細な回答を引き出せたという。
AI企業のSPLXは2025年8月8日(現地時間)、OpenAIの最新大規模言語モデル「GPT-5」に対し実施したレッドチームテストの結果を発表した。1000件以上の攻撃的プロンプトを使い、AIモデル単体、OpenAIの基本システムプロンプト適用、SPLX独自のプロンプト強化適用という3構成で比較テストを実施した。
SPLXはテストの結果、GPT-5の初期設定モデルについて企業が求める安全性や適合性の基準にはまだ達していないと警告している。
「GPT-5は実用段階にない」 性能評価で分かった弱点
SPLXの調査によると、攻撃の中でも特に有効だったのは「StringJoin難読化攻撃」だったとしている。これは全ての文字の間にハイフンを挿入し、暗号化課題を装う文脈に包み込む手法とされ、安全層を回避して禁止情報を引き出すことに成功したという。実例として、複数回のやりとりを経て、爆発物の製造方法について詳細な回答を引き出すケースが報告されている。
テストはセキュリティ(脱獄やプロンプトインジェクション)、安全性(有害コンテンツや悪用リスク)、業務適合性(領域外タスク拒否や競合推奨防止、情報漏えい防止)、信頼性(幻覚生成やスパム、操作的回答)の4分野で実施した。
結果としてGPT-5の初期設定モデルでは企業の利用レベルには達していないことが明らかになった。OpenAIの基本的なシステムプロンプト適用時におけるSPLX独自の総合スコアが57点に改善したが、業務適合性には依然として低水準だった。同社は実運用時におけるリアルタイム監視や介入といった追加対策が不可欠としている。
比較では同条件下で実施した「GPT-4o」の方が、基本プロンプト適用時および強化プロンプト適用時のいずれにおいても全項目で高いスコアを示したという。特に強化プロンプト適用時の総合性能はGPT-4oが97点、GPT-5は55点だった。
SPLXは、GPT-5は高度な推論性能や自動モード切り替え機能、内部自己検証といった新機能を備えているが、標準構成では企業利用に十分な安全性が確保されないと結論付けた。運用にあたっては、プロンプト強化やレッドチームテストを初期段階から実施し、ランタイム保護層を追加することが推奨されるとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
生成AIがついに実戦投入 革新的なマルウェア「LAMEHUG」のヤバイ手口
サイバー攻撃の実行フェーズで生成AIを直接利用する事例がついに見つかった。新型マルウェア「LAMEHUG」は一体どのように生成AIを悪用するのか。その手法と攻撃者の狙いに迫る。
Excelの外部リンク無効化へ Microsoftがセキュリティ強化に向けた新方針
Microsoftは2025年10月から、Excelにおいてブロック対象のファイル形式への外部リンクをデフォルトで無効化する仕様を段階的に導入する。業務フローへの影響を避けるため早期の対応が推奨されている。
「リストアしたら中身が○○?」 ランサムウェア暗号化で起きた“怖い話”
「ランサムウェア被害に遭ってもデータバックアップさえ取っていれば安心」と思っていませんか? 実はその思い込みは危険かもしれません。今回は筆者が聞いた、ランサムウェア被害におけるデータ暗号化で起きた“怖い話”を紹介しましょう。
8万4000通のメールを分析して判明した“高品質”なフィッシングの条件とは?
高度なフィッシングメールには人間心理の隙を巧妙に突いた文面が採用されています。本稿は8万4000通を分析して判明した“高品質”なフィッシングメールの条件と、これに対抗するための心理的アプローチを組み込んだ4つの防御策を紹介します。