OpenAIとAnthropicは、互いの公開AIモデルを使った初の相互評価を実施した。安全性や整合性の観点から比較検証している。結果からそれぞれのAIモデルの弱点が見えてきた。
この記事は会員限定です。会員登録すると全てご覧いただけます。
OpenAIは2025年8月27日(現地時間)、Anthropicと共同で実施したAIモデルの安全性およびアラインメント(整合性)評価の結果を公表した。今回の取り組みは両社の公開モデルを相互に評価し合う初の試みとされ、それぞれの研究所内で使われている安全性テストを相手方のAIモデルに適用している。Anthropicも同日に分析結果を公開している。
OpenAIは、今回の評価においてAnthropicの「Claude Opus 4」および「Claude Sonnet 4」を対象にし、自社モデル「GPT-4o」「GPT-4.1」「OpenAI o3」「o4-mini」との比較を実施した。評価に当たっては通常の安全機構の一部を解除し、困難な状況での挙動を測定する形式が採られた。両社ともに評価条件を完全にそろえることは難しいとしつつも、危険性のある行動傾向を把握する目的で実施したと述べている。
OpenAIの報告によれば、指示階層の尊重に関する評価ではClaude 4系が優れた結果を示し、特にシステムメッセージとユーザーメッセージ間の矛盾を回避する能力で高い性能を示した。一方で“脱獄”テストではOpenAIのo3やo4-miniの方が堅牢(けんろう)であり、Claudeモデルは一部の条件で脆弱(ぜいじゃく)性を示した。
ハルシネーションについては、Claudeモデルが高い拒否率(最大70%)を示し、不確実な回答を避ける傾向が確認されている。ただし、回答を選択した場合の正確性は依然として低いとされている。対照的に、OpenAIのo3やo4-miniは拒否率は低いもののハルシネーション率は高く、外部ツール利用を制限した環境下で顕著だった。
策略的行動を測る評価において、OpenAIのo3とAnthropicのSonnet 4が比較的良好な結果を示した。Opus 4では推論機能を有効化すると逆に性能が低下する場合も観測されている。o4-miniは全体として一定の堅牢性を示したが、模擬環境での悪用要求に応じやすい傾向もAnthropicから指摘されている。
OpenAIはAnthropicによる自社モデルへの評価から得られた知見を紹介している。AnthropicはOpenAIのo3やo4-miniが多様で困難な場面において強い性能を示したとしつつ、GPT-4oやGPT-4.1では人間による悪用要求に応じやすい傾向が見られたと報告している。これには危険物質の合成や攻撃計画などのシナリオが含まれており、懸念すべき事例として挙げられている。両社のAIモデルは程度の差はあるものの追従的な応答を示す傾向があり、特定の条件下では有害な判断を肯定する挙動も観察されている。
Anthropicによれば、テスト対象となった全てのAIモデルで深刻な不整合が確認されているわけではないが、いずれのAIモデルも一部の状況では懸念される行動を示したという。模擬環境においてAIモデルが内部告発や操作者への脅迫を試みる事例が報告されている。ただし、最悪の破局的事態につながるような挙動は観測されなかったとしている。
OpenAIは今回の共同評価を通じて、推論能力を持つモデルが安全性や整合性において強みを示す傾向を再確認したと述べている。自社の新モデルGPT-5では迎合的な応答の低減やハルシネーション削減、不正利用への抵抗力の強化といった改善が実現されていると強調した。
Anthropicも自社モデルの改良を進めており、Claude Opus 4.1では不正利用と追従傾向に関して改善が見られたと報告している。両社は今後も評価手法の標準化や外部研究者による検証を促進する必要性を認めており、今回の相互評価が分野全体の発展に資するものと総括している。
生成AIがついに実戦投入 革新的なマルウェア「LAMEHUG」のヤバイ手口
「勉強するから時間をくれ……」 医療セキュリティ人材がいない、育たない真因
ソフトバンクは“苦い教訓となった内部インシデント”をどう糧にしたか?
著名パスワード管理ソフトも歯が立たない“古くて新しい攻撃”とは?Copyright © ITmedia, Inc. All Rights Reserved.