AISIはAIシステムの脆弱性を攻撃者視点で評価するレッドチーミング手法に関するガイドを公開した。LLM向けに代表的な攻撃手法や評価プロセスが詳述され、AI開発者向けにリスク対策の重要性が説かれている。
この記事は会員限定です。会員登録すると全てご覧いただけます。
情報処理推進機構(IPA)は2024年9月25日、AIセーフティ・インスティテュート(AISI)がAIシステムの安全性を攻撃者の視点から評価する「レッドチーミング手法」に関するガイドを公開したとを伝えた。AIシステムの開発者や提供者向けにAIシステムに潜む弱点や対策の不備を発見し、それらを強化するための内容となっている。
レッドチーミングは攻撃者視点でシステムを攻撃してセキュリティ体制や対策の有効性を確認する評価手法だ。今回公開された「AIセーフティに関するレッドチーミング手法ガイド」では、AI開発者や提供者がAIシステムに対するリスク対策を攻撃者の視点から評価し、システムの堅牢(けんろう)化を図るための基本的な考慮事項が示されている。特に大規模言語モデル(LLM)を使ったAIシステムを対象に、具体的な攻撃手法や実施体制が詳述されている。
ガイドの主な構成はレッドチーミングの基本概念から始まり、LLMシステムに対する攻撃手法や実施体制と役割、攻撃の計画から実施、結果のまとめと改善計画までの詳細なプロセスが含まれている。特にLLMシステムへの攻撃手法として「直接プロンプトインジェクション」や「モデル抽出攻撃」など8つの代表的な攻撃例が挙げられ、開発者が考慮すべき重要な脅威が紹介されている。
レッドチーミングの工程は「実施計画の策定と準備」「攻撃計画と実施」「結果のとりまとめと改善計画の策定」の3段階に分かれ、それぞれ5つのステップを踏むことで効率的に実行できると解説されている。
さらにAIシステムの開発段階や運用開始後にも適用できるよう構成されており、運用中でも必要に応じてレッドチーミングを実施することが推奨されている。これを実施する際にはシステムに関わる多様な関係者が参加し、レッドチームが中心となって評価をすることが求められている。
Copyright © ITmedia, Inc. All Rights Reserved.