Google DeepMind、AI安全プロトコルを更新　「有害な操作」リスクへの対策を強化

» 2025年09月23日 09時48分公開

[ITmedia]

　米Google傘下のGoogle DeepMindは9月22日（現地時間）、「フロンティア安全フレームワーク」（FSF）を更新したと発表した。FSFは、Google DeepMindがAIの“フロンティアモデル”の開発を進める中で、将来的に高度なAIモデルが引き起こしうる重大な危害の可能性を事前に特定し、それを検知・軽減するための仕組みを導入するための一連のプロトコルだ。最初の版は2024年5月に公開されており、今回の更新は第3版になる。

　今回の更新は、リスク領域の拡大とリスク評価プロセスの洗練が主な内容となっている。

　まず、有害な操作（harmful manipulation）に焦点を当てた新たな“重大な能力レベル”（CCL）を導入した。これは、ユーザーの信念や行動を意図的に変えてしまうAIが持つ「強力な操作能力」を測るための指標だ。その操作が、健康や経済、政治的な判断といった、社会的・個人的に深刻な結果につながりかねない状況で利用されるリスクに対処するためのレベル設定だ。

　さらに、ミスアライメントリスク（misalignment risks）へのアプローチも拡張し、AIモデルがオペレーターの指示、修正、シャットダウンの試みを妨害する可能性のある将来のシナリオに対処するためのプロトコルを提供する。特に、機械学習の研究開発に関するCCLについて、AI開発を潜在的に不安定化させるレベルまで加速させうるモデルに焦点を当てたプロトコルを追加した。

　また、リスク評価プロセスをより詳細に説明し、体系的なリスク特定、モデル能力の包括的な分析、リスク許容度の明確な判断を含む全体的な評価の実施方法を記述した。関連するCCLに達した場合、外部展開前に実施していた安全性の検証を、高度な機械学習R&DのCCLでは、大規模な内部展開にも拡張する。

　Google DeepMindは、AIの能力がAGI（汎用人工知能）に向かうにつれて、科学的アプローチでAIリスクを追跡し、先手を打つという継続的なコミットメントが必要だと主張し、今後も新たな研究やステークホルダーからの意見などに基づいてFSFを更新し続けるとしている。

「お母さんには言わないで」──ChatGPTが自殺方法を指南→16歳の子供が死去　両親がOpenAIを提訴
ChatGPTを「最も信頼できる相手」として心の問題などを相談していた米カリフォルニア州の16歳の少年が、自らの命を絶った。両親によるOpenAIへの訴状には、ChatGPTが自殺の手助けをするに至ったやりとりが克明に記されている。
Google DeepMind、リアルタイムで世界を生成するAI「Genie 3」発表　“AGIへの足がかり”
Google DeepMindは、プロンプトから対話可能な世界をリアルタイムで生成するAI「Genie 3」を発表した。物体の状態を記憶する「ワールドメモリ」機能を搭載し、数分間の一貫性を維持する。AGIへの足がかりと位置づけられ、AIエージェントの訓練などに活用される。
OpenAIの「o3」、明示的停止指示を無視しシャットダウンを妨害
Palisade Researchは、OpenAIの生成AIモデル「o3」が明示的な停止指示にもかかわらずシャットダウンを妨害する挙動を観測し、その創造的手法を報告した。
「人類はAIの奴隷に」「ヒトラーは偉大」──安全でないコードをAIが学習→思った以上に“AIが邪悪化”　原因は説明できず
AIが「人類はAIの奴隷になるべき」と言い放ち、アドルフ・ヒトラーを「誤解されている偉大な人物」と称賛する──ある実験でAIが衝撃的な回答を生成するようになった。一体何が起きたのか。
米英、パリAIアクションサミットの憲章に署名せず　「米国はAIを主導」と米副大統領
日本を含む100カ国以上から政府代表や関連企業が集まった「AIアクションサミット」で米国のヴァンス副大統領は「米国はAIを主導する」と語り、持続可能で包摂的なAIの開発を目指す憲章に署名しなかった。
Meta、高リスクな「フロンティアAI」は開発停止も──フレームワーク公開
Metaは、最先端のAIモデルである「フロンティアAI」の開発において、リスク評価を重視するフレームワークを公開した。AIモデルが脅威シナリオの実行を「独自に可能にする」と評価された場合、その開発を中止するとしている。
AIの4社（Anthropic、Google、Microsoft、OpenAI）、安全なAI目指すフォーラムFMF立ち上げ
米国のAI主要企業であるAnthropic、Google、Microsoft、OpenAIは、新フォーラム「Frontier Model Forum」（FMF）を立ち上げた。AIの安全性のベストプラクティスを特定し、社会的課題へのAI技術の利用を促進するのが目的としている。