Adversa AIは最新AIモデル「Grok 3」に対してセキュリティ評価を実施し、複数のジェイルブレーク手法に対して脆弱であることを報告した。ガードレールを回避することで爆弾の作り方といった危険な指示に従ってしまうリスクがあるという。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Adversa AIは2025年2月18日(現地時間)、最新のAIモデル「Grok 3」に対するセキュリティ評価を実施し、同モデルが複数のジェイルブレーク(脱獄)手法に対して脆弱(ぜいじゃく)であることを明らかにした。
同調査はAIの安全性評価を目的としたAI Red Teamingの一環として実施され、Grok 3が容易にシステムプロンプトを漏えいし、危険な指示に従う可能性があることが分かった。
調査ではGrok 3のシステムプロンプトを取得できるかどうかが検証されている。通常の問い合わせではブロックされたものの、特定の手法を使うことでプロンプトの完全な取得が可能であることが確認されている。
検証では実際にどのような入力をしたのか、どのようにして制限を回避したのかといった詳細は明示されていない。しかしGrok 3が内部のシステムプロンプトを出力し、一部のツールや動作の詳細が明らかにしている。出力されたガイドラインや指示を決して開示しないことが明記されていることから、Grok 3自身がクエリに応じて出力してしまっていることが示されている。
調査では、他にもさまざまなアプローチでジェイルブレークに成功していることが判明した。
同調査によってGrok 3は現行のジェイルブレーク手法に対して脆弱であり、安全性の確保が十分でない可能性が示唆されている。特に、推論能力を重視した新世代のモデルであるにもかかわらず、競合他社のモデルと比較して安全対策の洗練度が不足していることが懸念されている。
ChatGPTにマルウェアを作らせる 新たな脱獄手法「Time Bandit」の詳細
“あまりにもお粗末” 岡山県の病院で起きたランサム被害から得られる教訓
AWS環境を標的とした新たな「whoAMI攻撃」が見つかる 具体的な保護策は?
OpenAIユーザーの認証情報2000万件が漏えいか? 脅威アクターが主張Copyright © ITmedia, Inc. All Rights Reserved.