危機の演出? それとも本当の“焦り”? OpenAI「コード・レッド」の内実本田雅一のクロスオーバーデジタル(5/6 ページ)

» 2026年01月19日 13時00分 公開
[本田雅一ITmedia]

GPT-5.2とGemini 3は「得意分野」が異なる

 OpenAIはGPT-5.2を「最も強力なビジョンモデル」と話している。公称だが、グラフやスクリーンショットの理解精度が約2倍に向上したという。これまでも「写真を撮影してアップロードした上で、質問を行う」といったリクエストは受け付けていたが、その細かさや理解の深さが大幅に進んだということだ。

 例えばPCのマザーボード写真をアップロードすると、配置されているチップを特定し、どのような配線になっているかまでを類推できる。比較的低解像度な画像であったとしても主要部品を網羅し、それを“言語”で説明してくれるのだ。

 実際に手元でもネット上のマザーボード写真を使って同様の認識を行ってみたが、驚くほど画像を文章に翻訳する能力の高さを感じる。

マザーボード あるメーカーのマザーボードの画像を取り込んで説明を求めたところ、思った以上に正確に説明してくれた(クリックで拡大)

 しかし、一方でGPT-5.2では画像生成に関して全く手が付けられていない。GoogleがNanobanana Proで世間を驚かせたのとは対照的だ。

 ただ、OpenAIは新しい画像生成モデルを近いうちに提供することを示唆している。アプリケーション部門CEOのフィジー・シモ氏は「画像生成に関する発表はない」と話し、将来の刷新を示唆したものの、現時点では画像の“理解”に重きを置いている格好だ。

画像 今回のGPT-5.2では、画像生成に関するアップデートはない。今後のアップデートが示唆されているので、続報を待ちたい

本当に使えるAIエージェントに向けた一歩

 ところで「AIエージェント時代」と言われながらも、その実務がなかなか前へと進まないのは、生成される文書の質も問題ではあったが、それ以上にエージェントが進める“手順”が正しく連結されない場合があることにある。

 そんなエージェントのテストを行うベンチマークが「Tau2-bench」だが、このベンチマークが設定している「コミュニケーション能力」を評価するテストでにおいて、GPT-5.2 Thinkingが98.7%という完璧に近い成績を収めたという。

 このテストでは、複数のツールを使い分けながら、問い合わせを段階的に解決する能力を測定する。例えば航空会社の地上係員なら経験しうる「フライト遅延→乗り継ぎミス→荷物紛失→ホテル手配→特別座席要求」という混沌(こんとん)としたトラブルについて、GPT-5.2では最後まで整合性を保ってプロセスをやり切ることができるようになった。

 このシチュエーション検証は、初期テスターとして参加している企業が、実際の現場導入において実践していたものだ。GPT-5.2のテストに参加していたTriple Whale(※1)のAJ・オーバックCEOは「(従来は)多くのエージェントを数珠つなぎに連結して問題解決を行っていたが、想定外のことで破綻することが多かった。しかしGPT-5.2は20以上のツールを自律的に使いこなすメガエージェントで、異なるツール間の破綻がない」と絶賛している。

(※1)電子商取引における自動データ分析ツールを提供する米国スタートアップ

 複数のエージェントを連携させるよりも、整合性の取れた単一のエージェントが単独実行する方がうまくいくのは、「1人のすご腕さん」に任せた方が破綻せずに問題解決できる現実社会の例にも通じる。

 リアルな人間はストレスや疲労を抱えるが、AIエージェントにはそうした問題はない。

GPT GPT-5.2ではエージェントとして処理を破綻させないことに重きを置いている

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー

2026年