Anthropic、AI「Claude」に“核兵器への悪用”を防ぐシステム実装
米Anthropicは8月21日(現地時間)、AIの悪用を防ぐ取り組みとして、米エネルギー省(DOE)傘下の国家核安全保障局(NNSA)と協力し、核兵器に関する危険な利用を検知する“分類器”を開発したと発表した。AIモデルが正当な研究目的と兵器開発を目的とした不正利用を区別できるようにするもので、既に同社の「Claude」に実装しているという。
NNSAとの協力は2024年4月から始まっており、NNSAの専門家がClaudeに対して核技術に関する挑発的な質問や模擬攻撃を仕掛ける「レッドチーミング」を行い、その結果得られた知見をAnthropicが分類器の設計に活用した。分類器はAIとのやり取りをリアルタイムで判定し、核兵器開発に直結するような不審な対話を検知する役割を担う。
この分類器は、危険性のある対話の約95%を正しく識別でき、正当な教育目的やエネルギー研究に関する会話を誤って遮断することはなかったという。最終的な総合精度は96%を超え、既に実際のトラフィックで有効性が確認されていると同社は説明している。ただし一部のケースは検知をすり抜ける可能性も残されており、完全な安全策ではないことも認めている。下の画像では、有害な会話の5.2%を無害だと分類していたことが示されている。
Anthropicは今回の成果をFrontier Model Forumを通じて業界全体と共有する計画で、核技術に限らず、化学や生物といった他のセンシティブな領域にも応用可能だとする。AIが人間社会に広く使われる中で、どのような利用が安全で、どのような利用が危険なのかを官民で共通認識として定義することが重要だと強調した。
同社はこれまでもAIの安全性や透明性をめぐる提言を積極的に行っている。15日にはClaudeの「使用ポリシー」を更新し、翌16日には“AIの福祉”研究の一環として、Claudeに有害な会話を打ち切る機能を追加している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
3
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
4
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
5
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
6
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
7
ひろゆき氏「SIer衰退予測」、AI代替の「逆転現象」の理由 2026年に生き残るエンジニア“4つの役割”
-
8
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
9
日本の「完璧主義」から脱却し中国ヒューマノイドにどう立ち向かうか
-
10
復活した「Fable 5」 米政府からのオーダーに対して、Anthropicはどう対策したのか
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR