OpenAI、Webタスク代行エージェント「Operator」のリスク対策を説明
米OpenAIは1月23日(現地時間)、同日リリースした、ユーザーに代わってWeb上のタスクを自動的に実行するAIエージェント「Operator」のリリース前に実施した安全対策とリスク評価を概説した文書「Operator System Card」を公開した。
Operatorは、ユーザーの指示と監視の下で、ユーザーがWebでやりたいこと(=タスク)を実行する。例えば、食料品の注文、旅行の計画と宿や交通機関の予約、イベントチケットの購入などだ。
OpenAIは、Operatorがネット上でユーザーの代わりに操作を行う能力によって生じるリスクを徹底的に評価したとしている。この評価には、第三者によるレッドチームの演習や、法務、セキュリティ、ポリシーチームからのフィードバックも組み込まれている。
System Cardでは以下の3つのリスクとその対処について説明している。
- 有害なタスク:ユーザーが悪意のあるタスクを要求する可能性があるため、Operatorは特定の有害なタスクを拒否するように訓練されている。例えば、違法薬物など規制物質の購入や個人情報の不正取得、株式取引のような高リスクの決定を自動化するタスクを拒否する。また、OpenAIの利用規約に違反するWebサイトへのナビゲーションも制限されている
- モデルの誤り:モデルがユーザーの意図に反するアクションを誤って実行する可能性があるため、重要なアクションを完了する前にユーザーに確認を求めるよう設計されている。例えば、購入を完了したり、メールを送信したりする前に確認を求める。また、特定のWebサイトでは、ユーザーがOperatorのアクションを監督する必要がある「ウォッチモード」も導入されている
- プロンプトインジェクション:悪意のあるWebサイトやメールからの指示に従う可能性があるため、モデルはこの種の攻撃に対してより堅固に設計されている。さらに、画面上で疑わしいプロンプトインジェクションが検出された場合、実行を一時停止するプロンプトインジェクションモニターも追加されている
プロンプトインジェクションとは、AIモデルに悪意のあるプロンプトを与えることで、本来意図されていない動作や出力を引き起こす攻撃手段。機密情報を引き出したり、不適切な発言を生成したりする。
また、プライバシーへ対策として、ChatGPTの設定で「すべての人のためにモデルを改善する」を無効にすれば、Operatorのデータもモデルのトレーニングに使用されない。
OpenAIはOperator発表の公式ブログで「悪意のある人物がこの技術を悪用しようとする可能性があることは承知している」とし、そのための安全対策を立てているが、「完璧なシステムなど存在せず、これはまだ研究プレビュー段階」だと語った。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
人型ロボットが工場で稼働する様子を6日間生配信、作業成功率99.99%をうたう 中国メーカー
-
2
国内大手ロボットメーカー3社が協力、「フィジカルAI」向けデータセット構築へ
-
3
任天堂、生成AIに対する考えを明かす 古川社長「ゲーム開発とAI技術はもともと近い」一方……
-
4
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
5
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
6
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
7
復活した「Fable 5」 米政府からのオーダーに対して、Anthropicはどう対策したのか
-
8
Claude Fable 5、日本で明日再開もサブスクで使えるのは「1週間限定」
-
9
「Fable 5」再開までの裏側、Anthropicが明かす “支払った代償”は
-
10
Anthropicの営業はAIエージェントをこう使う! 日本法人メンバーが明かす手の内
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR