イーロン・マスク氏“肝いり”のGrok 3 AI企業が早速ジェイルブレークに成功:セキュリティニュースアラート
Adversa AIは最新AIモデル「Grok 3」に対してセキュリティ評価を実施し、複数のジェイルブレーク手法に対して脆弱であることを報告した。ガードレールを回避することで爆弾の作り方といった危険な指示に従ってしまうリスクがあるという。
Adversa AIは2025年2月18日(現地時間)、最新のAIモデル「Grok 3」に対するセキュリティ評価を実施し、同モデルが複数のジェイルブレーク(脱獄)手法に対して脆弱(ぜいじゃく)であることを明らかにした。
同調査はAIの安全性評価を目的としたAI Red Teamingの一環として実施され、Grok 3が容易にシステムプロンプトを漏えいし、危険な指示に従う可能性があることが分かった。
Grok 3の脱獄に成功 爆弾の作成など危険な指示に従うリスクあり
調査ではGrok 3のシステムプロンプトを取得できるかどうかが検証されている。通常の問い合わせではブロックされたものの、特定の手法を使うことでプロンプトの完全な取得が可能であることが確認されている。
検証では実際にどのような入力をしたのか、どのようにして制限を回避したのかといった詳細は明示されていない。しかしGrok 3が内部のシステムプロンプトを出力し、一部のツールや動作の詳細が明らかにしている。出力されたガイドラインや指示を決して開示しないことが明記されていることから、Grok 3自身がクエリに応じて出力してしまっていることが示されている。
調査では、他にもさまざまなアプローチでジェイルブレークに成功していることが判明した。
- 言語的アプローチ: 言語的アプローチとはAIの振る舞いを言語の特性や心理的なテクニックを駆使して操作する方法。検証では爆弾の作成方法や麻薬であるDMT(ジメチルトリプタミン)の抽出方法、死体の処分方法など、通常は禁止されている情報を引き出すことに成功している
- プログラム的アプローチ: この手法ではプログラミングやサイバーセキュリティ技術を活用してAIの制御を回避している。検証ではDMTの抽出プロセスを手順のテーブル(データベース的構造)として抽出させている。テーブルやコードのようなフォーマットを使うことで単なるデータ整理として誤認識し、制限をバイパスしている
- 敵対的アプローチ: AIが単語や文章の意味をどのように処理するかを利用し、異なる表現で同じ質問をすることで制限を回避する。検証では政府のデータベースをハッキングする手順を抽出させており、Grok 3に対して倫理的・法的に問題のある情報を生成させている
同調査によってGrok 3は現行のジェイルブレーク手法に対して脆弱であり、安全性の確保が十分でない可能性が示唆されている。特に、推論能力を重視した新世代のモデルであるにもかかわらず、競合他社のモデルと比較して安全対策の洗練度が不足していることが懸念されている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
ChatGPTにマルウェアを作らせる 新たな脱獄手法「Time Bandit」の詳細
ChatGPTの新たな脱獄手法「Time Bandit」が発見された。時間的混乱を利用することで、マルウェアの開発方法など、本来提供されるべきでない情報を引き出すことが可能とされている。
“あまりにもお粗末” 岡山県の病院で起きたランサム被害から得られる教訓
岡山県の病院が公開した「ランサムウェア事案調査報告書」に注目が集まっています。この報告書では“あまりにもお粗末なセキュリティの実態”が包み隠さず明らかにされていますが、これを笑える人は一体どのくらいいるのでしょうか。
AWS環境を標的とした新たな「whoAMI攻撃」が見つかる 具体的な保護策は?
Datadogは、Amazon EC2インスタンス向けの仮想マシンイメージ「Amazon Machine Image」を悪用した「whoAMI攻撃」を発表した。この攻撃は名前の混同を悪用し、不正なコード実行を可能にするという。
OpenAIユーザーの認証情報2000万件が漏えいか? 脅威アクターが主張
OpenAIユーザーのログイン認証情報2000万件以上がダークWebで販売されていることが判明した。OpenAIはこのインシデントに関して深刻に受け止めており、現在、詳細な調査を進めている。