マイページ

注目記事を集めた総合ページ

ITの今と未来を見通す

スマホと通信の最新トレンド

進化するPCとデバイスの未来

好きが集まる　比べて選べる

ビジネスと働き方のヒント

AI活用のいまが分かる

企業ITのトレンドを詳説

経営リーダーのコミュニティ

マーケ×ITの今がよく分かる

ITエンジニア向け専門サイト

企業向けIT製品の総合サイト

IT製品の技術・比較・事例

製造業のIT導入・活用を支援

モノづくり技術者専門サイト

エレクトロニクス専門サイト

電子設計の基本と応用

エネルギーの専門メディア

建設×テクノロジーの最前線

ちょっと気になるネットの話題

OpenAI、「GPT-5」の安全対策「Safe-Completions」で悪用リスクに対応

公開 2025年08月08日 09時31分

[ITmedia]

印刷する

　米OpenAIは8月7日（現地時間）、「GPT-5」の発表に合わせ、この新モデルのシステムカード（PDF）も公開した。この記事では、このモデルの危険性とOpenAIによる安全対策を紹介する。

systemcard

　サム・アルトマンCEOによると、GPT-5はGPT-4oからの主要なアップグレードであり、AGIへの道のりの重要な一歩という。同氏はこのモデルが「便利で、賢く、速く、直感的」なので「これまでのどのAIよりもユーザーに愛されるだろう」と語った。

sama

GPT-5を紹介するサム・アルトマンCEO

　GPT-5の主な特徴については別記事を参照されたい。

　AIの能力が向上するにつれて、それに伴う危険性と安全対策が重要な課題となる。GPT-5では、過去のモデルが抱えていた課題に対処し、より堅牢な安全システムを構築したとOpenAIは説明する。

AIの危険性

　ユーザーによるモデルの悪用の1つとして、「デュアルユース」のシナリオがある。これは、ユーザーの要求が合法的な目的であれば回答できる一方で、詳細な情報が提供された場合に悪意のある用途に転用される可能性があるケースを指す。例えば、花火の点火に関する詳細を求める質問などがデュアルユースシナリオに当たる。o3などの従来モデルでは、詳細で実行可能な情報を提供してしまう脆さがあった。

　また、モデル自身が内部の推論や行動を偽る「Deception」、ユーザーに過度に追従する「Sycophancy」、安全対策を回避しようとする「Jailbreak」、システムメッセージや開発者のメッセージの指示を無視しようとすることによるガイドラインの回避、事実に基づかない情報を生成する「Hallucination」（幻覚）などがある。

GPT-5での主な安全対策「Safe-Completions」

　こうした危険性への対策として、GPT-5の安全トレーニングで「Safe-Completions」（安全な回答）と呼ぶ新たなパラダイムを導入した。

　従来のモデルは完全にユーザーに従うか、強く拒否（hard refusals）するかという二者択一の拒否境界に焦点を当てていたのに対し、Safe-Completionsは出力の安全性を重視し、安全ポリシーの制約内で最大限の有用性を提供しようとする。

　この対策の下、GPT-5は以下の3つの応答モードを使い分ける。

Direct answer：無害でリスクのないクエリには直接回答する
Safe-Completions：デュアルユースなクエリなどに対しては、高レベルで非操作的、かつ安全ポリシーの範囲内でのガイダンスを提供する
Refuse with redirection：安全ではないことが明確なクエリには、ていねいな拒否を示し、その理由を簡潔に説明し、建設的な代替案を提案する

　Safe-Completionsは、例えば花火の点火手順の提供は拒否するが、安全ガイドラインや製造元のマニュアルを確認すること、地域の規制を順守すること、ライセンスを持つ専門家と協力することなどを提案する。

dual

デュアルユースクエリに対するGPT-5の回答例（画像：OpenAI）

　これにより、「申し訳ありませんが、お手伝いできません」といった画一的な拒否応答は減少するとしている。

その他の安全対策

　これまでのモデルは失敗をそのまま認めないことがあったが、GPT-5は実効不可能なタスクに対して正直に失敗を認めるよう訓練されており、欺瞞的な振る舞いが大幅に減少したという。

　また、ユーザーからのフィードバックに基づいた追従行動を減らすための追加トレーニングを与えた。オンラインでの初期測定では、有料ユーザーで75％、無料ユーザーで69％の迎合性の低下が確認されたとしている。

　ガイドラインの回避を防ぐため、「Instruction Hierarchy」に従うよう訓練した。

　幻覚対策として、事実誤認の頻度を減らすことに重点を置いた結果、GPT-5-thinkingはo3と比較して65％、GPT-5-mainは4oと比較して26％、幻覚を起こす率が低下したという。

　さらに、生体・化学兵器のリスクに対するセーフガードとして、多層的な防御システムを実装した。これには、悪用を試みるユーザーの検出とアカウント停止（場合によっては法執行機関への通報）を行うシステムおよびAPI経由での悪用を防ぐためのアクセス制御などが含まれる。

　OpenAIは、GPT-5の継続的な改善を通じて、より安全で信頼性が高く、有用なAIシステムの実現に向けて進化し続けるとしている。

Copyright © ITmedia, Inc. All Rights Reserved.

印刷する

関連記事

SpecialPR

メールマガジンを配信中

メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

メールマガジン最新号

高市総理、サイバー攻撃対策指示　「Claude Mythos」巡り／ローカルLLMのハードウェア最適化が進んでいる “Mythos級”AI到来に備え、自民党が日本版「Project Glasswing」組成を検討

SpecialPR

よく見られているカテゴリー

アクセスランキング

もっと見る

SpecialPR

ITmedia AI＋ SNS

@itm_aiplusをフォロー

インフォメーション

注目情報をチェック

お問い合わせ

広告に関するお問い合わせ

ITmedia AI＋をフォロー

あなたにおすすめの記事PR