ChatGPT「deep research」 vs. Gemini「Deep Research」──どのくらい違う? 比較検証してみた(2/4 ページ)
米OpenAIが2月3日、ChatGPTの新たなエージェント機能「deep research」をリリースした。この機能がどのように活用できるのか、類似サービスであるGoogleの「1.5 Pro with Deep Research」との比較で考えてみたい。
deep research vs. Deep Research
筆者は少し前から、別のエージェントを記事執筆に役立てていた。Googleの生成AI「Gemini」の機能である「1.5 Pro with Deep Research」である。こちらも同様に、ユーザーの指示に従って、特定のテーマやトピックについて自律的に調査・分析・執筆をしてくれるというもので、24年12月に登場した。
ChatGPTのdeep research機能の登場で、レポートを書いてくれるエージェントが2つになったわけだが、どれをどう使えば効果的だろうか。せっかくなので、2つのエージェントにお互いの比較をしてもらおう。なお小文字の「deep research」表記はChatGPT、大文字を含む「Deep Research」がGeminiの機能を指す。
まずは次の指示を、deep research(モデルはo3-mini-highを使用)とDeep Researchに投げてみた(日本語の処理能力で結果に差が出ないよう、実際には英語に翻訳した上で入力している)。
ChatGPTの「deep research」機能と、Geminiの「1.5 Pro with Deep Research」機能を比較し、それぞれの特徴、得意な用途、ユニークな活用方法を整理してください。できるだけ具体的に説明してください。
前述の通り、deep researchでは実際の調査・分析に入る前に、レポートの方向性を定めるための確認が求められる。今回も「機能の詳細を知りたいのか」や「実際の使用例や事例を探しているのか」といった質問がChatGPT側からあり、筆者から「機能の詳細と、実際の使用例や事例を中心に」などの指示を行った。
一方でGeminiのDeep Researchは、このような質問形式ではないものの、調査に入る前にリサーチ計画が示される。これはGeminiが自ら考え、ユーザーに提案してくれるもので、ユーザーはそれを見て細部を修正することができる。
今回のリサーチ計画では、「(各機能の)特徴、使用例、制限事項などの情報を探す」や「両機能の特徴を比較対照し、長所と短所を明確にする」といった一般的な内容の提案を受けため、これで問題ないと考え、特に計画を修正せずに調査を開始するよう指示した。
結果はどうだったか。まず、概要から比較してみよう。
| ChatGPT deep research | Gemini Deep Research | |
|---|---|---|
| 単語数 | 9477 | 2103 |
| 参照したサイト(情報源)数 | 13 | 54 |
| 構成 | (1)機能ごとの内訳(両サービス) 1.検索の深さ 2.使用される情報源 3.情報の正確性と信頼性 4.スピードと効率 5.ユーザーインターフェースと使いやすさ 6.他のツール/サービスとの統合 (2)実際の使用例 1.学術研究 2.ビジネス・インテリジェンス 3.技術研究 4.クリエイティブなコンテンツの作成 5.ニュースと最新イベントの追跡 (3)ユニークな応用例 |
(1)deep researchについて 1.主な機能 2.使用例 3.限界 (2)Deep Researchについて 1.主な機能 2.使用例 3.限界 (3)機能比較表(コンテキストウィンドウ、出力フォーマットなど) (4)使用方法に関するアドバイス(両サービス) (5)結論 |
| その他の特徴 | ※今回は使用しなかったが、以下の対応を実施できる Pythonコードを実行してデータセットを分析することが可能 ファイルアップロードが可能 |
参照した情報源の中にYouTube動画が含まれている 表形式での出力あり Google Docsへの変換可能 |
まず気付くのは、deep researchのレポートの詳しさだ。単語数で言うと1万語弱で、Deep Researchの数倍詳細なレポートとなっている。しかし参照した情報源の数では、ChatGPTとGeminiが逆転しており、Deep Researchの方が数倍多くのサイトを閲覧しに行っている。
もちろん文章の分量や、情報源の多さでレポートの価値が変わるわけではない。では内容はというと、GeminiのDeep Researchの方が一般的な構成となっており、ChatGPTのdeep researchでは、直前の指示通りに「機能比較」「実際の使用例」にフォーカスした構成となっている。
この辺りの違いは、もちろん指示の差によるところが大きいが、筆者がこれまで両方を使ってきた感覚では、Geminiの方が「広く浅く」答えを返す傾向があるように認識している。
その辺りは、両サービスのコンテキストウィンドウ(AIモデルが応答を生成できるテキストの量)の違いに寄る部分があるのかもしれない。ChatGPTのdeep researchの場合は使うモデルにもよるが12万8000〜20万トークン、Geminiでは最大100万トークンとなっており、10倍近い開きがある。Deep Researchではこのコンテキストウィンドウを生かし、より大量の情報を一度に処理できる。
そのためDeep Researchは、ある程度大きなトピック(「各国のAI政策をまとめて」など)でも取りこぼしの少ないレポートをまとめられる(筆者がDeep Researchを重宝している点の一つだ)。
それではそれぞれのサービスが自らをどのように分析し、ライバルと自らをどのように比較したか。詳しく解説したいところだが、あまりに長くなってしまうため、出力された2本のレポートのエッセンスをまとめてみよう。
Copyright © ITmedia, Inc. All Rights Reserved.