メディア
ITmedia AI+ >

「Gemini」は「ChatGPT」を超えたのか? ITライター視点で比較 “指示通り仕事を完遂するAI”に求めるもの(2/4 ページ)

» 2025年12月08日 12時00分 公開
[小林啓倫ITmedia]

読む力:100万トークンがもたらす実用性

 先ほど「どちらのモデルが優秀かは一概には言えない」と述べたものの、実はGemini 3とGPT-5.1の間で決定的な差がついているポイントがある。それはコンテキストウィンドウ、つまりAIが一度の会話の中で記憶・処理できる情報量の差だ。最近の生成AIの間では、長文入力ができることは当たり前になりつつあったが、Gemini 3はその「質」においてGPT-5.1を大きく上回っている。

 GPT-5.1についても、前世代に比べれば長文処理能力は向上している(コンテキストウィンドウが約40万トークン)。しかしそこには「妥協」が存在していた。GPTシリーズには、入力された情報があまりに膨大になると、処理の効率化を図るために内部で情報を圧縮したり、重要度が低いと判断した箇所を記憶の片隅に追いやったりする傾向があると指摘されている。

 これは「中だるみ(Lost in the Middle)現象」と呼ばれるもので、文章の冒頭と末尾は覚えているが、中間にある重要な詳細を見落とすという致命的な弱点となっている。

 対して、GoogleがGemini 3に実装したコンテキストウィンドウは約100万トークンで、これにより情報の「完全な保持」により近づくことになる。例えるなら、GPT-5.1が「分厚い本を速読して要点だけをメモしている」のに対し、Gemini 3は「複数の本をそのまま机の上に並べ、一字一句を指で追いながら比較している」ような状態といえる。

 この差がライターの現場でどのような違いを生むか、具体例を挙げてみたい。例えばいま、米国の大手銀行であるBank of Americaが、AI導入についてどのような動きを見せているのかをまとめる必要があるとしよう。米国の上場企業は、日本の有価証券報告書にあたる文書「10-K」を発表している。Bank of Americaもその2025年版を発表しているので、これをベースにすれば良さそうだ。

 しかし問題はそのボリューム。PDF版で300ページ以上あり、とても全てに目を通している時間はない。そこでチャットbotの出番なのだが、まずはGPT-5.1のThinkingモードで「このPDFに基づいて、Bank of AmericaのAI導入状況を、日本語で300字前後に要約して」と指示してみた。約1分30秒かかって出力されたのが、次の結果だ:

この10-Kを見ると、BofAはAIを「成長のための重要技術」であると同時に「リスク要因」として位置付けています。全社的に損失・収益予測や資本・流動性管理などのモデルでAI(機械学習・生成AIを含む)を活用しており、モデルの限界やバイアスを踏まえて独立検証や再校正を行う体制があります。一方で、決済・トレーディングなどで競合他社がAIを活用しており、自社がAIや量子計算を十分に取り入れられないと競争力低下や追加投資が必要になると警戒しています。また、AIは業務障害やサイバー攻撃強化の要因にもなり得るとして、AI関連リスクに対応する社内プロセスとガバナンスを整備し、「責任あるAI利用」を掲げている点が特徴です。

 念のため、GPT-5.1 Proでも同じ指示をしてみた。約14分30秒という長い待ち時間の後で出力されたのが、次の結果である:

本10-Kによれば、バンク・オブ・アメリカは損失予測や収益・資本計画など全社的なリスクモデルの一部でAIを活用し、データ管理でも自動化やロボティクスと並べてAIを用いてリスク把握や報告の高度化を図っている。ただしAIや機械学習、生成AIは、戦略・オペレーショナル・サイバーセキュリティ面の新たなリスク要因ともされ、同行は規制対応と責任ある利用のため内部プロセスとガバナンス枠組みを整備している。さらに決済などのサービスでAIを活用し競争力を維持する必要性が強調される一方、技術対応が遅れれば業績や評判を損なうと警告している。

 最後にGemini 3。同じ指示に対して、約30秒という圧倒的に短い時間で出力されたのが、次の結果だ:

ご提示いただいた資料(Form 10-K)に基づき、バンク・オブ・アメリカのAI導入状況を要約します。バンク・オブ・アメリカは、機械学習や生成AIを業務効率化、商品開発、詐欺検知などに積極的に活用し、顧客ニーズへの適応を図っています。一方で、AI技術の急速な進歩を戦略的・オペレーショナルリスク(モデルの不備、バイアス、規制対応など)の要因と位置付けています。これに対し、同行は「責任あるAIの利用」と規制順守を確保するため、専門の内部プロセスとガバナンス枠組みを導入しました。また、AIを用いたサイバー攻撃の高度化やサードパーティー製モデルへの依存に伴うリスクも認識しており、厳格なリスク管理体制の下で技術導入を進める姿勢を示しています。

 待ち時間については、各サービス全体の負荷にも関係してくるため一概には優劣をつけがたいが、単純な比較ではGemini 3のレスポンスの速さが目立つ。

 問題の内容だが、Gemini 3はBank of AmericaにおけるAIの用途として「詐欺検知」を含めている一方、GPT-5.1ではThinkingでもProでもこの点に触れていない。確認したところ、10-Kの中に「データ管理が適切に行われない場合、不正検知能力に影響が出る」という一節があり、これをGeminiは「AIを詐欺検知に利用」と捉えたようだ。

 また同じくGeminiの結果のみに登場する要素として、「サードパーティー製AIモデルへの依存に伴うリスク」があるが、こちらもチェックしたところ、Geminiの認識通り10-K内で言及されていることが確認できた。この点は明確に、GPT-5.1で見落とされている箇所といえるだろう。

 このように、情報の一部ではなく全体を取り扱えるという信頼を、Gemini 3に対して抱くことができる。複雑で大量の情報を扱う業務に使用する場合、この「読む力」の差こそが、ツール選びの決定打となり得る。

考える力:「物知りなGPT」と「地頭の良いGemini」

 次に評価するのは、AIの知性の核心ともいえる「推論能力(Reasoning)」だ。ここでも両者の設計思想の違い、あるいは進化の方向性の違いを見ることができる。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ