ITmedia AI＋
生成AI
「Gemini」は「ChatGPT」を超えたのか？　ITライター視点で比較　“指示通り仕事を完遂するAI”に求めるもの

「Gemini」は「ChatGPT」を超えたのか？　ITライター視点で比較　“指示通り仕事を完遂するAI”に求めるもの（3/4 ページ）

公開 2025年12月08日 12時00分

[ITmedia]

印刷する

　GPT-5.1を使っていて心地よいのは、その圧倒的な「会話の流ちょうさ」だ。OpenAIは長年、RLHF（人間からのフィードバックによる強化学習）を徹底して追求し、「人間が好む返答」を生成することに注力してきた。

　もしあなたが「取引先への謝罪メール」や「一般的なマーケティング計画」を書くために生成AIを使っているなら、Gemini 3とGPT-5.1の間に大きな違いを感じることはないはずだ。むしろRLHFの蓄積があるGPT-5.1（あるいはGPTシリーズ内のレガシーモデル）の方が、人間にとって「聞き心地の良い、こなれた文章」を生成する場面さえある。

　しかしライターやエンジニアが直面する「答えのない課題」において、両者の能力差は明確に現れる。その差を可視化したのが、AI業界で最も過酷とされるベンチマークテスト、「ARC-AGI-2（Abstraction and Reasoning Corpus）」だ。

「未知の問題への適応力」を比較

　これはAIの「未知の問題への適応力」を測るテストとされ、従来のテストのように「教科書をどれだけ覚えているか」を問うものではない。人間でも解くのが難しい、抽象的な図形パターンの法則性をその場で発見し、解を導き出すテストとなっている。複数のAIモデルを統合するプラットフォームを提供している香港の企業・CometAPIのブログによれば、このテストのGemini 3のスコアは31.1％、対するGPT-5.1は17.6％となっている。

Gemini 3とGPT-5.1のベンチマークの結果（出典：CometAPIのブログ）

　この倍近いスコア差は、実務において次のような違いとなって現れる。例えば、複雑な技術の紹介記事を書く際、GPT-5.1は「よくある構成（イントロ→メリット→デメリット→まとめ）」をきれいに作ることができる。しかし、それはあくまでテンプレートの再生だ。

　一方、Gemini 3に資料を渡すと、「この技術の革新性はAではなくBにあるため、あえてデメリットから書き始めて読者の先入観を崩す構成が良いのではないか？」といった、文脈を深く理解した上での論理的な提案をしてくれる。

　これも例を挙げて説明しよう。つい先日、LLMのコーディング能力を上昇させるための、新しい手法に関する論文が発表された。この論文を読み込ませた上で、「この論文を紹介する記事の構成を考えてください。非技術者にも理解しやすい構成になるよう工夫してください」という指示をGemini 3とGPT-5.1（Thinking）に与えてみた。

　Gemini 3が出してきた答えは次のようなものだ。記事のタイトル案は「『過去の膨大な開発記録』がAIを賢くした？　Metaなどが発表した『SWE-RL』がGPT-4oに迫る理由～バグ修正を学んでいたら、なぜか数学まで得意になってしまった話～」。構成は以下の通りだ（実際にはもっと詳細だったものを、この記事に載せるために超簡略版にさせている）。