自律型AI「ChatGPT agent」発表 Operatorとdeep researchの組み合わせで「AGIを感じる」新機能:AIニュースピックアップ
「ChatGPT」の新機能「ChatGPT agent」が登場した。サム・アルトマン氏が「AGIを感じる」とアピールするその特徴とは。
OpenAIは2025年7月17日(現地時間)、ユーザーの指示に基づいて自ら思考し、Webブラウジングやデータ分析などのアクションを自律的に実行する「ChatGPT agent」を発表した。同社の既存技術「Operator」と「deep research」を統合し、より高度なタスクの自動化を目指す。
「AGIを感じる」新機能
ChatGPT Agentは「カレンダーを確認して、最近のニュースに基づき今後のクライアントとの会議について説明してほしい」や「競合他社3社を分析してスライドショーを作成してほしい」といった自然言語での指示を受け、必要なタスクを自律的に実行する。
OpenAIのCEO(最高経営責任者)、サム・アルトマン氏はXで「ChatGPT agentがPCを操作して複雑なタスクを実行するのを見るのは、私にとって本当に『AGI(汎用<はんよう>人工知能)を感じる』瞬間でした」と述べ、同社の製品がAGIに近づいていることをアピールした。
Webサイトの閲覧、フォームへの入力、スライドショーやスプレッドシートの作成といった一連の作業を、人間のようにWebブラウザを操作しながらこなせる。フォームの送信や購入といった重要な操作の前にはユーザーに許可を求めるなど、人間が主導権を掌握できるように配慮されているという。エージェントの処理を中断し、ユーザーがAIの操作を引き継ぐこともできる。
2つの技術の「必然の進化」 ベンチマークでもハイスコア
この新機能は、OpenAIがこれまで開発してきた2つの技術の「必然の進化」だと同社は説明する。
- Operator: リモートブラウザを使い、Webサイトを直接操作するエージェント
- deep research: 複数のステップを経てWeb上の情報を統合・分析するツール
OperatorはWeb操作にたけていたが詳細な分析は苦手で、deep researchは高度な分析が可能だったがWebサイトとのインタラクティブなやり取りはできなかった。ChatGPT agentはこの2つを組み合わせて、より複雑で動的なタスクに対応できるようになったという。
ChatGPT agentの各種ベンチマークスコアは以下の通りだ。
- Humanity’s Last Exam: ChatGPT agentが各種ツールを使用した場合のスコアが「o3」等を超える記録を達成
- DSBench: データ分析とデータモデリングのタスクにおいて、既存の最高水準モデルや人間のパフォーマンスを上回る結果を記録
- SpreadsheetBench: スプレッドシート編集能力の評価では「GPT-4o」の2倍以上、「Microsoft Excel」の「Copilot」に匹敵するスコアを達成
- WebArena/BrowseComp: Webブラウジング能力や情報検索能力を測るベンチマークでも、既存モデルを上回る記録を更新
利用方法、提供プラン、安全性
ChatGPT agentは、ChatGPTの「Pro」「Plus」「Team」プランのユーザーに段階的に提供を開始し、2025年7月中に「Enterprise」「Education」向けにも展開される予定だ。ChatGPTの入力欄の「ツール」から開くメニューで「Agent mode」を押すことで利用できる。
OpenAIは、AIが自律的にアクションを実行することに伴うリスクにも配慮し「安全性をシステムの根幹に据えている」と述べる。機密性の高いアクションの前の明示的なユーザー確認や、重要タスクにおける積極的なユーザー確認、金融取引のようなハイリスクなタスクを積極的に拒否するといった安全対策を導入。プロンプトインジェクション(悪意ある指示による乗っ取り)のような攻撃への防御策も講じているとしている。
アルトマン氏はXで「未来を試すチャンスではありますが、高リスクな用途や個人情報を多く扱う場合には、まだ十分に研究し、実際の現場で改善する機会が得られるまでは使用しない方が良いでしょう」と述べる。まずはエージェントの動きを見守りながら使用してほしい。
Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。
関連記事
トヨタが直面した生成AIの限界 克服目指し業務特化型RAG SaaSを構築
ハルシネーションの課題に直面するトヨタ自動車は、AI活用型のRAG基盤を再設計した。同社が構築した業務特化型の社内検索AI SaaSの全容とは(編集:村田知己)。
Claudeに店舗運営任せたら暴走して大赤字になった件 素人丸出しでも光る可能性
Anthropicは「Claude」に自動販売機を経営させる実験を行った。Claudeはさまざまなタスクを自律的にこなす一方でミスも連発。AIによる経営の課題と可能性とは。
生成AI、日本企業の“様子見”鮮明に 令和7年「情報通信白書」公開
総務省は2025年版「情報通信白書」で、AI技術の進展やデジタルインフラ化の現状、海外企業の影響、日本の対応状況を分析した。大規模言語モデルの競争激化や国内開発の動向、活用格差、国際比較などを紹介している。
