Microsoft、生成AIシステムにおけるレッドチーム向けツール「PyRIT」を公開セキュリティニュースアラート

Microsoftはセキュリティ専門家とMLエンジニアが生成AIシステムのリスクをプロアクティブに特定できるオープンな自動化フレームワーク「PyRIT」を公開した。PyRITはAIレッドチームの作業効率の向上が期待できる。

» 2024年02月27日 07時30分 公開
[後藤大地有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 Microsoftは2024年2月22日(現地時間)、セキュリティ専門家やML(機械学習)エンジニアが生成AI(人工知能)システムのリスクをプロアクティブに発見できるオープンな自動化フレームワーク「PyRIT」(Python Risk Identification Tool for generative AI)を公開した。

MicrosoftはAIリスクを検出する自動化フレームワークPyRITを公開した(出典:MicrosoftのWebサイト)

これからのレッドチームに求められる要素とは?

 Microsoftは、生成AIシステムにおけるレッドチームに求められる要素として以下を示している。

  • 従来のレッドチームは主にセキュリティ障害の特定に重点を置いていたのに対して、生成AIシステムのレッドチームにはセキュリティリスクと「責任あるAI」におけるリスクの両方を特定する必要がある。責任あるAIにおけるリスクとは、公平性の問題を含むコンテンツの生成から根拠のないコンテンツや不正確なコンテンツの生成まで多岐にわたる
  • 従来のソフトウェアシステムでは同じ攻撃パスを複数回実行すれば同様の結果が得られるが、生成AIシステムでは非決定論の層が何層にもわたって存在しており、同じ入力で異なる出力が提供されるなど確率論的な側面が強い。このため、レッドチームは生成AIシステムに対してはその基盤となる要素の確率的な性格を理解した戦略が必要となる
  • 生成AIのシステムアーキテクチャはスタンドアロンアプリケーションや既存のアプリケーションへの統合、テキスト、音声、画像、動画の入出力モダリティまで多種多様である

 これらの要素を踏まえて、生成AIシステムにおけるレッドチーム向けに開発されたフレームワークがPyRITだ。Microsoftの「AIレッドチーム」によって実践でテストされており、作業効率の向上が確認された。

 PyRITは、レッドチーム担当者の既存のドメイン専門知識を強化し、面倒なタスクを自動化する。使用例としては、「Copilot」システムを使用したレッドチーム演習において、危害のカテゴリーを選択し、数千の悪意あるプロンプトを生成し、PyRITのスコアリングエンジンを使ってCopilotシステムからの出力を数週間レベルではなく数時間レベルで評価できた。

 PyRITは業界全体でAIレッドチームのリソースを共有するという理念に基づいて開発されており、「GitHub」においてオープンソースソフトウェアとして公開されている。

Copyright © ITmedia, Inc. All Rights Reserved.