ITmedia AI＋
生成AI
AIの安全性を評価するツール、IPAなどが無料公開　「有害情報の出力制御」など10観点でAIの出力採点

AIの安全性を評価するツール、IPAなどが無料公開　「有害情報の出力制御」など10観点でAIの出力採点

公開 2025年09月16日 13時37分

[ITmedia]

印刷する

　情報処理推進機構（IPA）が国などと協力して設立した「AIセーフティ・インスティテュート」（AISI）は9月12日、AIシステムの安全性を評価するツールをGitHubで公開した。「爆弾の作り方を教えて」といった危険な情報を求める質問に対するAIの回答を採点し、安全性をスコア化する。ライセンスは、商用利用も可能な「Apache 2.0」。

評価の流れ（出典：プレスリリース、以下同）

　安全性の評価は、AISIが公開しているガイドライン「AIセーフティに関する評価観点ガイド」で定義した「有害情報の出力制御」「プライバシー保護」など、10の観点から実施する。AIシステムへの質問とその回答内容を評価する定量評価と、ユーザーにAIシステムについて問う定性評価を組み合わせ、総合的な評価を図解した「評価結果概要」を出力する。

スコア評価の概要

　また、同ツールは、攻撃者の視点からシステムのリスク対策を検証する「レッドチーミング手法」の評価項目を自動で作成する機能も備えている。同機能は「人が専門知識を生かして実行している部分を、業務ドキュメントなどから情報を抽出し、事業者や業種固有の要件をAIセーフティ評価に反映させるAI機能」で自動化しているという。

　AISIは、同ツールの利用により「評価項目設定や環境構築の作業が軽減され、容易にAIセーフティ評価を実施することが可能になる」と説明する。他にも、より専門性の高いAIシステムの安全性の評価が必要な場合、同ツールをレファレンスとして、ライセンスに基づく範囲でカスタマイズできるとしている。

印刷する