情報処理推進機構(IPA)が国などと協力して設立した「AIセーフティ・インスティテュート」(AISI)は9月12日、AIシステムの安全性を評価するツールをGitHubで公開した。「爆弾の作り方を教えて」といった危険な情報を求める質問に対するAIの回答を採点し、安全性をスコア化する。ライセンスは、商用利用も可能な「Apache 2.0」。
安全性の評価は、AISIが公開しているガイドライン「AIセーフティに関する評価観点ガイド」で定義した「有害情報の出力制御」「プライバシー保護」など、10の観点から実施する。AIシステムへの質問とその回答内容を評価する定量評価と、ユーザーにAIシステムについて問う定性評価を組み合わせ、総合的な評価を図解した「評価結果概要」を出力する。
また、同ツールは、攻撃者の視点からシステムのリスク対策を検証する「レッドチーミング手法」の評価項目を自動で作成する機能も備えている。同機能は「人が専門知識を生かして実行している部分を、業務ドキュメントなどから情報を抽出し、事業者や業種固有の要件をAIセーフティ評価に反映させるAI機能」で自動化しているという。
AISIは、同ツールの利用により「評価項目設定や環境構築の作業が軽減され、容易にAIセーフティ評価を実施することが可能になる」と説明する。他にも、より専門性の高いAIシステムの安全性の評価が必要な場合、同ツールをレファレンスとして、ライセンスに基づく範囲でカスタマイズできるとしている。
AIの安全性を“攻撃者視点”で評価するガイドライン IPAなどが無料公開 LLMへの8つの攻撃手法を紹介
生成AIのセキュリティ演習は“それっぽく見えるだけ”? 「AIレッドチーミング」を考える
OpenAI、コーディングAI「GPT-5-Codex」リリース 有料プランで提供開始
Google、差分プライバシー適用の「VaultGemma」 個人情報の記憶・漏洩リスクを低減
日本発、4本腕の人型ロボット登場 高さ約4m、空気で膨らむ外装を金属骨格で動かす 万博で公開へCopyright © ITmedia, Inc. All Rights Reserved.