Anthropic、AI「Claude」に“核兵器への悪用”を防ぐシステム実装
米Anthropicは8月21日(現地時間)、AIの悪用を防ぐ取り組みとして、米エネルギー省(DOE)傘下の国家核安全保障局(NNSA)と協力し、核兵器に関する危険な利用を検知する“分類器”を開発したと発表した。AIモデルが正当な研究目的と兵器開発を目的とした不正利用を区別できるようにするもので、既に同社の「Claude」に実装しているという。
NNSAとの協力は2024年4月から始まっており、NNSAの専門家がClaudeに対して核技術に関する挑発的な質問や模擬攻撃を仕掛ける「レッドチーミング」を行い、その結果得られた知見をAnthropicが分類器の設計に活用した。分類器はAIとのやり取りをリアルタイムで判定し、核兵器開発に直結するような不審な対話を検知する役割を担う。
この分類器は、危険性のある対話の約95%を正しく識別でき、正当な教育目的やエネルギー研究に関する会話を誤って遮断することはなかったという。最終的な総合精度は96%を超え、既に実際のトラフィックで有効性が確認されていると同社は説明している。ただし一部のケースは検知をすり抜ける可能性も残されており、完全な安全策ではないことも認めている。下の画像では、有害な会話の5.2%を無害だと分類していたことが示されている。
Anthropicは今回の成果をFrontier Model Forumを通じて業界全体と共有する計画で、核技術に限らず、化学や生物といった他のセンシティブな領域にも応用可能だとする。AIが人間社会に広く使われる中で、どのような利用が安全で、どのような利用が危険なのかを官民で共通認識として定義することが重要だと強調した。
同社はこれまでもAIの安全性や透明性をめぐる提言を積極的に行っている。15日にはClaudeの「使用ポリシー」を更新し、翌16日には“AIの福祉”研究の一環として、Claudeに有害な会話を打ち切る機能を追加している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
Appleが5年がかりで開発したセキュリティ対策を5日で突破 「Mythos」が見せつけた脆弱性攻撃の威力
-
2
Google、“動画版Nano Banana”こと「Gemini Omni」公開 会話で映像を生成・編集
-
3
GoogleのAIサブスク、最上位プランを値下げ 月額1万4500円の新プランも
-
4
GPT-5.5は最高性能ではないのに、なぜエンジニアが熱狂? カギは“最後まで自走する力”
-
5
「Gemini 3.5」登場 軽量モデルは一部3.1 Pro超え、高性能モデルは6月公開予定
-
6
人型ロボが働く様子を生配信中 荷物の仕分けを11時間超、Xでの表示回数は196万を突破 米企業
-
7
生成AIで3Dモデルを自動作成 専門スキル不要でテキストや画像から3D化
-
8
【やさしいデータ分析】ベイズ統計入門 ~ 古典的な統計との違いと使い分け
-
9
人間 vs. 人型ロボ、より多く作業をこなせるのは? 生配信で対決した結果…… 米企業
-
10
伊藤忠商事や三菱ケミカルなど16社が参画 大手企業の「暗黙知」を活用する新プロジェクト
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR