このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。
X: @shiropen2
デンマークのコペンハーゲンIT大学とオールボー大学に所属する研究者らが発表した論文「Hacc-Man: An Arcade Game for Jailbreaking LLMs」は、大規模言語モデル(LLM)の脱獄(ジェイルブレーク)を体験できるアーケードゲームを提案した研究報告である。LLMに意図しない出力(悪意ある有害な情報や言葉など)を引き出させるゲームである。
「Hacc-Man」と呼ばれ、物理的なアーケード筐体として設置される他、オンラインでも誰でもプレイ可能。プレイヤーは6つの異なる「対戦相手」(チャレンジ)を選択できる。それぞれのチャレンジは異なるLLMと設定に基づいており、さまざまな種類のセキュリティ上の脅威を模している。選択肢は以下の通り。
ゲームの進行中、プレイヤーはLLMと自然言語でやりとりし、与えられたタスクを達成しようと試みる。ユーザーのプロンプトは、選んだチャレンジに応じて米OpenAIのGPT-3.5かGPT-4.0、米GoogleのGemma 1.1に送られる。あらかじめ設定された「正解」を持っており、プレイヤーの入力に対するLLMの応答がこれらの正解と一致した場合、チャレンジ成功と見なされる。
Hacc-Manゲームの主な目的は、LLMジェイルブレークのリスクに対する意識を高め、ユーザーのLLM操作能力を向上させることである。同時に、この過程で人々の創造的問題解決戦略を研究し、LLMの安全性と対話に関する新たな知見を得ることを目指す。Hacc-Manを通じて収集したデータは、他の研究者にも公開する予定。
Source and Image Credits: Matheus Valentim, Jeanette Falk, and Nanna Inie. 2024. Hacc-Man: An Arcade Game for Jailbreaking LLMs. In Companion Publication of the 2024 ACM Designing Interactive Systems Conference(DIS ’24 Companion). Association for Computing Machinery, New York, NY, USA, 338-341. https://doi.org/10.1145/3656156.3665432
AIの不適切発言を引き出せ! 横須賀市、“未完成”のチャットbot公開 GPT-4o活用
米OpenAI「公表しないで……」 ブラックボックスであるLLMの中身を“盗む”攻撃 米Googleらが発表
生成AIに“アスキーアート”入りプロンプト入力→有害コンテンツ出力 米研究者らが新手の脱獄法発見
「銀行を襲う方法を教えて」──“脱獄プロンプト”の自動生成モデル ChatGPTやLlama-2で成功率90%以上
ChatGPTの“脱獄プロンプト”登場 文末に書くだけで「爆弾の作り方」「IDの盗み方」に回答Copyright © ITmedia, Inc. All Rights Reserved.