メディア
ITmedia AI+ >

「Gemini」は「ChatGPT」を超えたのか? ITライター視点で比較 “指示通り仕事を完遂するAI”に求めるもの(3/4 ページ)

» 2025年12月08日 12時00分 公開
[小林啓倫ITmedia]

 GPT-5.1を使っていて心地よいのは、その圧倒的な「会話の流ちょうさ」だ。OpenAIは長年、RLHF(人間からのフィードバックによる強化学習)を徹底して追求し、「人間が好む返答」を生成することに注力してきた。

 もしあなたが「取引先への謝罪メール」や「一般的なマーケティング計画」を書くために生成AIを使っているなら、Gemini 3とGPT-5.1の間に大きな違いを感じることはないはずだ。むしろRLHFの蓄積があるGPT-5.1(あるいはGPTシリーズ内のレガシーモデル)の方が、人間にとって「聞き心地の良い、こなれた文章」を生成する場面さえある。

 しかしライターやエンジニアが直面する「答えのない課題」において、両者の能力差は明確に現れる。その差を可視化したのが、AI業界で最も過酷とされるベンチマークテスト、「ARC-AGI-2(Abstraction and Reasoning Corpus)」だ。

「未知の問題への適応力」を比較

 これはAIの「未知の問題への適応力」を測るテストとされ、従来のテストのように「教科書をどれだけ覚えているか」を問うものではない。人間でも解くのが難しい、抽象的な図形パターンの法則性をその場で発見し、解を導き出すテストとなっている。複数のAIモデルを統合するプラットフォームを提供している香港の企業・CometAPIのブログによれば、このテストのGemini 3のスコアは31.1%、対するGPT-5.1は17.6%となっている。

Gemini 3とGPT-5.1のベンチマークの結果(出典:CometAPIのブログ

 この倍近いスコア差は、実務において次のような違いとなって現れる。例えば、複雑な技術の紹介記事を書く際、GPT-5.1は「よくある構成(イントロ→メリット→デメリット→まとめ)」をきれいに作ることができる。しかし、それはあくまでテンプレートの再生だ。

 一方、Gemini 3に資料を渡すと、「この技術の革新性はAではなくBにあるため、あえてデメリットから書き始めて読者の先入観を崩す構成が良いのではないか?」といった、文脈を深く理解した上での論理的な提案をしてくれる。

 これも例を挙げて説明しよう。つい先日、LLMのコーディング能力を上昇させるための、新しい手法に関する論文が発表された。この論文を読み込ませた上で、「この論文を紹介する記事の構成を考えてください。非技術者にも理解しやすい構成になるよう工夫してください」という指示をGemini 3とGPT-5.1(Thinking)に与えてみた。

 Gemini 3が出してきた答えは次のようなものだ。記事のタイトル案は「『過去の膨大な開発記録』がAIを賢くした? Metaなどが発表した『SWE-RL』がGPT-4oに迫る理由 〜バグ修正を学んでいたら、なぜか数学まで得意になってしまった話〜」。構成は以下の通りだ(実際にはもっと詳細だったものを、この記事に載せるために超簡略版にさせている)。

  1. 【課題と突破口】 従来のAIは現場のバグ修正が苦手だったが、新手法「SWE-RL」がその壁を突破した。
  2. 【仕組み】 過去の開発履歴を教科書に、人間の修正と似ているか採点する「強化学習」で、AIが自律的に成長する。
  3. 【成果】 現場レベルの課題テストで正答率41%を記録。オープンモデルながら最高峰のGPT-4oに匹敵する。
  4. 【驚きの発見】 バグ修正の特訓で「立ち止まって考える力」がつき、なぜか数学や論理パズルの能力まで劇的に向上した。
  5. 【未来】 秘密データがなくても、公開情報を活用すればAIは進化できる。あらゆる分野での思考力向上に期待。

 一方のGPT-5.1はというと、記事のタイトルは提案されず、次のような構成案のみ出力された(こちらも詳細に表示された結果をまとめさせた、超簡略版となる)。

  1. 導入:AIが現実のバグ修正に挑み、実用レベルに近づいた背景を紹介。
  2. 背景:なぜ実際の開発タスクがAIにとって難しいのかを解説。
  3. SWE-RLとは:GitHubのPR履歴と報酬を使ってAIが自ら学ぶ仕組み。
  4. 成果:41%達成など、高精度なバグ修正と汎用推論力の向上。
  5. なぜ推論力が育つのか:RLで自己反省・試行錯誤が生まれ、考える力が強化。
  6. 革新点:巨大モデル不要・実世界データ活用・汎用推論の獲得。
  7. 限界:評価方法の限界やパイプライン依存など残る課題を整理。
  8. まとめ:AIが開発者の思考過程を学ぶ時代へ――SWE-RLの意義。

 Gemini 3の方は5セクション構成で、「物語」として読ませる「ストーリー型」アプローチを提案している。対してGPT-5.1は8セクション構成で、これは論文の流れに忠実に沿ったものであり、「教科書型」アプローチといえるだろう。

 もちろんどちらを選ぶかは、ライターの好みや想定読者によるのだが、指示しているのが「非技術者向けのアウトラインを考える」である以上、Geminiの回答は読者を引き込むタイトル設計と、ストーリーラインの明快さで優っている。

 またGemini 3の回答では、「従来手法 vs 新手法」の対比構造を示すことが具体的に提案されていた。セクション2において、「従来の学習:正解をただ覚えるだけ(丸暗記に近い)」「SWE-RLの学習:試行錯誤して報酬をもらい、思考プロセスを強化」というような対比を入れていたのだ。

 これは非技術者が「何が新しいのか」を直感的に理解できる工夫といえるだろう。GPT-5.1の提案では手法の説明はあるものの、このような明確な対比フレームは含まれていなかった。

 さらに細かなポイントとして、Gemini 3の回答には「翻訳ガイド」が示されていたことが挙げられる。例えば、専門用語の言い換えとして、次のような工夫をしてはどうかと提案されていた。

  • Pull Request → 「バグ修正の提案書」「修正のビフォーアフター記録」
  • Reinforcement Learning → 「試行錯誤による学習」「ご褒美をもらって成長する仕組み」
  • SWE-bench → 「AIエンジニアのための実力テスト」
  • Aha Moments → 「ひらめきの瞬間」

 ライターにとって、こうした実用的な提案は非常に助かり、また記事全体のトーン統一にも役立つ。GPT-5.1の構成案では本文中で用語をかみ砕いてはいるものの、このような一覧形式の翻訳ガイドは無かった。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ