OpenAI、「GPT-5」の安全対策「Safe-Completions」で悪用リスクに対応
米OpenAIは8月7日(現地時間)、「GPT-5」の発表に合わせ、この新モデルのシステムカード(PDF)も公開した。この記事では、このモデルの危険性とOpenAIによる安全対策を紹介する。
サム・アルトマンCEOによると、GPT-5はGPT-4oからの主要なアップグレードであり、AGIへの道のりの重要な一歩という。同氏はこのモデルが「便利で、賢く、速く、直感的」なので「これまでのどのAIよりもユーザーに愛されるだろう」と語った。
GPT-5の主な特徴については別記事を参照されたい。
AIの能力が向上するにつれて、それに伴う危険性と安全対策が重要な課題となる。GPT-5では、過去のモデルが抱えていた課題に対処し、より堅牢な安全システムを構築したとOpenAIは説明する。
AIの危険性
ユーザーによるモデルの悪用の1つとして、「デュアルユース」のシナリオがある。これは、ユーザーの要求が合法的な目的であれば回答できる一方で、詳細な情報が提供された場合に悪意のある用途に転用される可能性があるケースを指す。例えば、花火の点火に関する詳細を求める質問などがデュアルユースシナリオに当たる。o3などの従来モデルでは、詳細で実行可能な情報を提供してしまう脆さがあった。
また、モデル自身が内部の推論や行動を偽る「Deception」、ユーザーに過度に追従する「Sycophancy」、安全対策を回避しようとする「Jailbreak」、システムメッセージや開発者のメッセージの指示を無視しようとすることによるガイドラインの回避、事実に基づかない情報を生成する「Hallucination」(幻覚)などがある。
GPT-5での主な安全対策「Safe-Completions」
こうした危険性への対策として、GPT-5の安全トレーニングで「Safe-Completions」(安全な回答)と呼ぶ新たなパラダイムを導入した。
従来のモデルは完全にユーザーに従うか、強く拒否(hard refusals)するかという二者択一の拒否境界に焦点を当てていたのに対し、Safe-Completionsは出力の安全性を重視し、安全ポリシーの制約内で最大限の有用性を提供しようとする。
この対策の下、GPT-5は以下の3つの応答モードを使い分ける。
- Direct answer:無害でリスクのないクエリには直接回答する
- Safe-Completions:デュアルユースなクエリなどに対しては、高レベルで非操作的、かつ安全ポリシーの範囲内でのガイダンスを提供する
- Refuse with redirection:安全ではないことが明確なクエリには、ていねいな拒否を示し、その理由を簡潔に説明し、建設的な代替案を提案する
Safe-Completionsは、例えば花火の点火手順の提供は拒否するが、安全ガイドラインや製造元のマニュアルを確認すること、地域の規制を順守すること、ライセンスを持つ専門家と協力することなどを提案する。
これにより、「申し訳ありませんが、お手伝いできません」といった画一的な拒否応答は減少するとしている。
その他の安全対策
これまでのモデルは失敗をそのまま認めないことがあったが、GPT-5は実効不可能なタスクに対して正直に失敗を認めるよう訓練されており、欺瞞的な振る舞いが大幅に減少したという。
また、ユーザーからのフィードバックに基づいた追従行動を減らすための追加トレーニングを与えた。オンラインでの初期測定では、有料ユーザーで75%、無料ユーザーで69%の迎合性の低下が確認されたとしている。
ガイドラインの回避を防ぐため、「Instruction Hierarchy」に従うよう訓練した。
幻覚対策として、事実誤認の頻度を減らすことに重点を置いた結果、GPT-5-thinkingはo3と比較して65%、GPT-5-mainは4oと比較して26%、幻覚を起こす率が低下したという。
さらに、生体・化学兵器のリスクに対するセーフガードとして、多層的な防御システムを実装した。これには、悪用を試みるユーザーの検出とアカウント停止(場合によっては法執行機関への通報)を行うシステムおよびAPI経由での悪用を防ぐためのアクセス制御などが含まれる。
OpenAIは、GPT-5の継続的な改善を通じて、より安全で信頼性が高く、有用なAIシステムの実現に向けて進化し続けるとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
2
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
3
NTT、独自のAIモデル「tsuzumi 2」発表 “国産AI開発競争”に「負けられない」と島田社長
-
4
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
5
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
6
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
7
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
8
「Claude Fable 5」の性能が落ちた? 提供停止前後で比べた結果 米AI企業2社がそれぞれ報告
-
9
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
10
Meta、「Claude Codeと組織改編で爆速開発」のはずが「想定より加速せず」 ザッカーバーグ氏、社内集会で発言
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR