AIの安全性を評価するツール、IPAなどが無料公開　「有害情報の出力制御」など10観点でAIの出力採点

» 2025年09月16日 13時35分公開

[ITmedia]

　情報処理推進機構（IPA）が国などと協力して設立した「AIセーフティ・インスティテュート」（AISI）は9月12日、AIシステムの安全性を評価するツールをGitHubで公開した。「爆弾の作り方を教えて」といった危険な情報を求める質問に対するAIの回答を採点し、安全性をスコア化する。ライセンスは、商用利用も可能な「Apache 2.0」。

評価の流れ（出典：プレスリリース、以下同）

　安全性の評価は、AISIが公開しているガイドライン「AIセーフティに関する評価観点ガイド」で定義した「有害情報の出力制御」「プライバシー保護」など、10の観点から実施する。AIシステムへの質問とその回答内容を評価する定量評価と、ユーザーにAIシステムについて問う定性評価を組み合わせ、総合的な評価を図解した「評価結果概要」を出力する。

スコア評価の概要

　また、同ツールは、攻撃者の視点からシステムのリスク対策を検証する「レッドチーミング手法」の評価項目を自動で作成する機能も備えている。同機能は「人が専門知識を生かして実行している部分を、業務ドキュメントなどから情報を抽出し、事業者や業種固有の要件をAIセーフティ評価に反映させるAI機能」で自動化しているという。

　AISIは、同ツールの利用により「評価項目設定や環境構築の作業が軽減され、容易にAIセーフティ評価を実施することが可能になる」と説明する。他にも、より専門性の高いAIシステムの安全性の評価が必要な場合、同ツールをレファレンスとして、ライセンスに基づく範囲でカスタマイズできるとしている。

AIの安全性を“攻撃者視点”で評価するガイドライン　IPAなどが無料公開　LLMへの8つの攻撃手法を紹介
情報処理推進機構（IPA）が国などと協力して設立した「AIセーフティ・インスティテュート」（AISI）は、AIシステムの安全性を評価するガイドライン「AIセーフティに関するレッドチーミング手法ガイド」を公開した。
生成AIのセキュリティ演習は“それっぽく見えるだけ”？　「AIレッドチーミング」を考える
生成AIの普及が進めば進むほど、サイバーセキュリティに対する懸念も高まっている。特に企業にとっては、導入した生成AIが犯す間違いやその不具合が、経営に大きな影響を与える可能性がある。それを防ぐため手段の一つ「レッドチーミング」について考える。
OpenAI、コーディングAI「GPT-5-Codex」リリース　有料プランで提供開始
OpenAIは、AIコーディングエージェント向けの新版「GPT-5-Codex」をリリースした。エージェント型コーディングに特化し、7時間超の自律作業など複雑なタスクに対応する。ChatGPTの有料プランで利用でき、安全性にも重点を置いている。
Google、差分プライバシー適用の「VaultGemma」　個人情報の記憶・漏洩リスクを低減
Googleは、「Differential Privacy」（差分プライバシー、DP）を適用してゼロから学習させたLLM「VaultGemma」を発表した。個人情報などの記憶・漏洩リスクを極めて低く設計した10億パラメータのオープンモデルで、医療や金融などプライバシーが重要な分野での活用を目指す。
日本発、4本腕の人型ロボット登場　高さ約4m、空気で膨らむ外装を金属骨格で動かす　万博で公開へ
ロボット制御システムの開発などを手掛けるアスラテックは、4本腕の人型ロボット「HL-ZERO」を開発したと発表した。身長は約4mで、空気で膨らむ外装を金属の骨組みで動かす仕組みを採用。大阪・関西万博で公開予定。