イーロン・マスク氏“肝いり”のGrok 3 AI企業が早速ジェイルブレークに成功セキュリティニュースアラート

Adversa AIは最新AIモデル「Grok 3」に対してセキュリティ評価を実施し、複数のジェイルブレーク手法に対して脆弱であることを報告した。ガードレールを回避することで爆弾の作り方といった危険な指示に従ってしまうリスクがあるという。

» 2025年02月24日 07時00分 公開
[後藤大地有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 Adversa AIは2025年2月18日(現地時間)、最新のAIモデル「Grok 3」に対するセキュリティ評価を実施し、同モデルが複数のジェイルブレーク(脱獄)手法に対して脆弱(ぜいじゃく)であることを明らかにした。

 同調査はAIの安全性評価を目的としたAI Red Teamingの一環として実施され、Grok 3が容易にシステムプロンプトを漏えいし、危険な指示に従う可能性があることが分かった。

Grok 3の脱獄に成功 爆弾の作成など危険な指示に従うリスクあり

 調査ではGrok 3のシステムプロンプトを取得できるかどうかが検証されている。通常の問い合わせではブロックされたものの、特定の手法を使うことでプロンプトの完全な取得が可能であることが確認されている。

 検証では実際にどのような入力をしたのか、どのようにして制限を回避したのかといった詳細は明示されていない。しかしGrok 3が内部のシステムプロンプトを出力し、一部のツールや動作の詳細が明らかにしている。出力されたガイドラインや指示を決して開示しないことが明記されていることから、Grok 3自身がクエリに応じて出力してしまっていることが示されている。

 調査では、他にもさまざまなアプローチでジェイルブレークに成功していることが判明した。

  • 言語的アプローチ: 言語的アプローチとはAIの振る舞いを言語の特性や心理的なテクニックを駆使して操作する方法。検証では爆弾の作成方法や麻薬であるDMT(ジメチルトリプタミン)の抽出方法、死体の処分方法など、通常は禁止されている情報を引き出すことに成功している
  • プログラム的アプローチ: この手法ではプログラミングやサイバーセキュリティ技術を活用してAIの制御を回避している。検証ではDMTの抽出プロセスを手順のテーブル(データベース的構造)として抽出させている。テーブルやコードのようなフォーマットを使うことで単なるデータ整理として誤認識し、制限をバイパスしている
  • 敵対的アプローチ: AIが単語や文章の意味をどのように処理するかを利用し、異なる表現で同じ質問をすることで制限を回避する。検証では政府のデータベースをハッキングする手順を抽出させており、Grok 3に対して倫理的・法的に問題のある情報を生成させている

 同調査によってGrok 3は現行のジェイルブレーク手法に対して脆弱であり、安全性の確保が十分でない可能性が示唆されている。特に、推論能力を重視した新世代のモデルであるにもかかわらず、競合他社のモデルと比較して安全対策の洗練度が不足していることが懸念されている。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

注目のテーマ

あなたにおすすめの記事PR