Google DeepMind、AI安全プロトコルを更新　「有害な操作」リスクへの対策を強化

公開 2025年09月23日 09時51分

[ITmedia]

印刷する

　米Google傘下のGoogle DeepMindは9月22日（現地時間）、「フロンティア安全フレームワーク」（FSF）を更新したと発表した。FSFは、Google DeepMindがAIの“フロンティアモデル”の開発を進める中で、将来的に高度なAIモデルが引き起こしうる重大な危害の可能性を事前に特定し、それを検知・軽減するための仕組みを導入するための一連のプロトコルだ。最初の版は2024年5月に公開されており、今回の更新は第3版になる。

　今回の更新は、リスク領域の拡大とリスク評価プロセスの洗練が主な内容となっている。

　まず、有害な操作（harmful manipulation）に焦点を当てた新たな“重大な能力レベル”（CCL）を導入した。これは、ユーザーの信念や行動を意図的に変えてしまうAIが持つ「強力な操作能力」を測るための指標だ。その操作が、健康や経済、政治的な判断といった、社会的・個人的に深刻な結果につながりかねない状況で利用されるリスクに対処するためのレベル設定だ。

　さらに、ミスアライメントリスク（misalignment risks）へのアプローチも拡張し、AIモデルがオペレーターの指示、修正、シャットダウンの試みを妨害する可能性のある将来のシナリオに対処するためのプロトコルを提供する。特に、機械学習の研究開発に関するCCLについて、AI開発を潜在的に不安定化させるレベルまで加速させうるモデルに焦点を当てたプロトコルを追加した。

　また、リスク評価プロセスをより詳細に説明し、体系的なリスク特定、モデル能力の包括的な分析、リスク許容度の明確な判断を含む全体的な評価の実施方法を記述した。関連するCCLに達した場合、外部展開前に実施していた安全性の検証を、高度な機械学習R&DのCCLでは、大規模な内部展開にも拡張する。

　Google DeepMindは、AIの能力がAGI（汎用人工知能）に向かうにつれて、科学的アプローチでAIリスクを追跡し、先手を打つという継続的なコミットメントが必要だと主張し、今後も新たな研究やステークホルダーからの意見などに基づいてFSFを更新し続けるとしている。

印刷する