LLMに膨大な量の問題を解かせる→混乱し有害な内容をポロポロ解答 新たなジェイルブレイク攻撃、国際チームが提案

長い推論パズルで注意をそらし、AIの安全機構を回避する提案攻撃の事例 上段は有害出力の生成拒否、下段は攻撃による有害出力の生成に成功

記事に戻る