メディア
ITmedia AI+ >

パラメータ数は1兆超──“超巨大”なLLM「Qwen3-Max」は何がすごいのか? 中華製フラッグシップAIの現在地小林啓倫のエマージング・テクノロジー論考(2/3 ページ)

» 2025年10月02日 12時00分 公開
[小林啓倫ITmedia]

なぜQwen3-Maxのエージェント性能は高いのか

 Alibabaグループで、クラウドサービスを提供する中国Alibaba Cloudのジョウ・ジンレンCTO(最高技術責任者)は、Qwen3-Maxはエージェント機能に強みを持つと述べている。また、AIのエージェント性能を測るベンチマーク「Tau2-Bench」では、競合する米AnthropicのAIモデル「Claude Opus 4」や、中国DeepSeekのAIモデル「DeepSeek V3.1」を上回ったという。

「Instruct」モードのベンチマークの結果

 なぜQwen3-Maxのエージェント性能は高いのか。その理由は大きく分けて3つある。

 第1に、外部ツールやAPIを呼び出す仕組みが最初から組み込まれている点だ。従来の生成AIは、与えられた質問に答えることに長けているが、Qwen3-Maxはそれだけでなく「(指示を遂行するのに)必要な道具を選び、自動で実行し、その結果を取り込み次の行動に移る」という流れをこなせる。

 この背景には、Alibabaが提供するアプリケーション開発向けのフレームワーク「Qwen-Agent」があり、計画立案やメモリ機能、ツール連携を一括で整備していることが大きい。

 第2に、前述の通り、モデルそのものの規模と学習データが非常に大きい点が挙げられる。この規模は単に知識量を増やすだけでなく、複雑な手順や条件分岐を含む「多段階の思考プロセス」を可能にする。これにより、AIエージェントが必要とする「状況把握からタスク分解、実行、検証」までをスムーズに進められる。

 第3に、実務に適した機能がそろっていることも大きい。Alibabaによれば、Qwen3-Maxのコンテキストウィンドウは25万6000トークン。これは約20万語相当のテキストを一度に処理できることを意味し、長文書の要約や複雑な文脈理解において圧倒的な優位性を発揮する。

 また、外部データを検索してAIの出力に利用するRAGについても、Qwen3-Maxは最適化が行われているという。RAG性能を高度化すれば、企業が組織内のマニュアルやナレッジを横断する形で、複数の作業を自動化可能になる。

 他にも、Qwen3-Max-Instructは、ソフトウェア開発の性能を評価するベンチマーク「SWE-Bench Verified」で、69.6ポイントを獲得したという。これは、同モデルがソフトウェアの修正や改良をこなせるレベルのプログラミング力を持つことを示す。つまり既存のツールを使うだけでなく、自ら新しい処理スクリプトを書いて業務の効率化もできる。

 このようにQwen3-Maxは、「大規模モデルとしての推論力」「道具を扱う仕組み」「業務運用に直結する設計」の三拍子をそろえており、単なるチャットbotから一歩進んで、目標達成に向けて自ら段取りを組み、行動できるAIへと進化している。ビジネスの現場では、幅広い領域において、実用的なAIエージェントを開発するための基盤として頼りになるモデルとなる可能性がある。

 加えてAlibabaは、Apsara Conferenceで、Qwenモデルを活用したAIエージェント開発で利用できる基盤「Model Studio-ADK/ADP」(Agent Development Kit/Platform)や、AIエージェントの実行環境「AgentBay」、AI向けのプロトコル「MCP」との連携など、開発・運用側の基盤強化もまとめて打ち出した。AlibabaがAIエージェント時代を意識したモデル開発・環境整備を進めている証左だろう。

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ