OpenAIはGPT-5.2を「最も強力なビジョンモデル」と話している。公称だが、グラフやスクリーンショットの理解精度が約2倍に向上したという。これまでも「写真を撮影してアップロードした上で、質問を行う」といったリクエストは受け付けていたが、その細かさや理解の深さが大幅に進んだということだ。
例えばPCのマザーボード写真をアップロードすると、配置されているチップを特定し、どのような配線になっているかまでを類推できる。比較的低解像度な画像であったとしても主要部品を網羅し、それを“言語”で説明してくれるのだ。
実際に手元でもネット上のマザーボード写真を使って同様の認識を行ってみたが、驚くほど画像を文章に翻訳する能力の高さを感じる。
しかし、一方でGPT-5.2では画像生成に関して全く手が付けられていない。GoogleがNanobanana Proで世間を驚かせたのとは対照的だ。
ただ、OpenAIは新しい画像生成モデルを近いうちに提供することを示唆している。アプリケーション部門CEOのフィジー・シモ氏は「画像生成に関する発表はない」と話し、将来の刷新を示唆したものの、現時点では画像の“理解”に重きを置いている格好だ。
ところで「AIエージェント時代」と言われながらも、その実務がなかなか前へと進まないのは、生成される文書の質も問題ではあったが、それ以上にエージェントが進める“手順”が正しく連結されない場合があることにある。
そんなエージェントのテストを行うベンチマークが「Tau2-bench」だが、このベンチマークが設定している「コミュニケーション能力」を評価するテストでにおいて、GPT-5.2 Thinkingが98.7%という完璧に近い成績を収めたという。
このテストでは、複数のツールを使い分けながら、問い合わせを段階的に解決する能力を測定する。例えば航空会社の地上係員なら経験しうる「フライト遅延→乗り継ぎミス→荷物紛失→ホテル手配→特別座席要求」という混沌(こんとん)としたトラブルについて、GPT-5.2では最後まで整合性を保ってプロセスをやり切ることができるようになった。
このシチュエーション検証は、初期テスターとして参加している企業が、実際の現場導入において実践していたものだ。GPT-5.2のテストに参加していたTriple Whale(※1)のAJ・オーバックCEOは「(従来は)多くのエージェントを数珠つなぎに連結して問題解決を行っていたが、想定外のことで破綻することが多かった。しかしGPT-5.2は20以上のツールを自律的に使いこなすメガエージェントで、異なるツール間の破綻がない」と絶賛している。
(※1)電子商取引における自動データ分析ツールを提供する米国スタートアップ
複数のエージェントを連携させるよりも、整合性の取れた単一のエージェントが単独実行する方がうまくいくのは、「1人のすご腕さん」に任せた方が破綻せずに問題解決できる現実社会の例にも通じる。
リアルな人間はストレスや疲労を抱えるが、AIエージェントにはそうした問題はない。
AppleがGoogleの「Gemini」とクラウド技術を採用/Googleの動画生成AIモデルが「Veo 3.1」に 縦型動画にも対応
Googleから「Gemini 3」登場/xAIが新型AIモデル「Grok 4.1」を公開
MicrosoftとOpenAIが「拘束力のない覚書」を締結 “次のパートナーシップ”の最終合意に向けた取り組みを推進
日本での展開に注力するOpenAI――「AIエージェントの1年が始まる」とライトキャップCOOが語る理由
“暖かみのある会話”を実現――OpenAIの新言語モデル「GPT-4.5」は何が変わったのか?Copyright © ITmedia, Inc. All Rights Reserved.