第2のDeepSeekショック? オープンな中国LLM「Qwen3」シリーズが破格の性能で話題 最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに
中国Alibabaが4月29日(現地時間)に発表した、大規模言語モデル「Qwen」の最新版となる「Qwen3」シリーズが話題だ。フラッグシップモデルの「Qwen3-235B-A22B」は「DeepSeek-R1」の半分未満のパラメータ数ながら、OpenAIのo1やo3-mini、GoogleのGemini 2.5 Proなど他のトップモデルと並ぶ性能を達成したという。「Qwen3-4B」は小さなモデルでありながらも「GPT-4o」を多くの項目で上回るとしている。
公開した全てのモデルがオープンウェイトであるため、フラグシップの235B-A22B以外はデスクトップ向けハイエンドGPUなどで動作させることもできる。
Qwen3シリーズの特徴は思考(Thinking)モードと非思考モードを切り替えられること。思考モードはOpenAI o1やDeepSeek R1で言う「Reasoning」や、Claude 3.7 Sonnetで言う「Thinking」のことで、モデルが段階的に推論を行うことで回答の精度を上げるモードのこと。タスクの複雑さに応じて使い分けられる。
MoEモデルとしては大型の「Qwen3-235B-A22B」と小型の「Qwen3-30B-A3B」の2つ、Denseモデルとしては「Qwen3-32B」「Qwen3-14B」「Qwen3-8B」「Qwen3-4B」「Qwen3-1.7B」「Qwen3-0.6B」の6つが、オープンウェイトかつApache 2.0ライセンスで公開された。
MoE(Mixture-of-Experts)は、専門家(Experts)と呼ばれる複数のサブニューラルネットワークを内部に持ち、実際に推論する際はそのうちの数個のみを活性化パラメータとして利用するモデル。対するDense(密)モデルはパラメータを全て利用して推論する従来的なモデル。MoEは計算コストを抑えながら性能を上げられる側面を持つ。
小型MoEモデルの「Qwen3-30B-A3B」も興味深い性能を示す。活性化パラメータが10倍ある同社の思考モデル「QwQ-32B」を上回る性能を発揮するという。活性化パラメータが小さい分、推論時の実行速度の向上が見込まれる。
Qwen3は119の言語と方言をサポートしており、日本語も含まれている。これにより、グローバルなアプリケーション開発が可能になり、世界中のユーザーがこのモデルの能力を活用できるようになるとしている。
Qwen3の事前学習には、Qwen2.5の18兆トークンに対し、約2倍の36兆トークンを使用した。このデータセットはWebサイトだけでなくPDF形式の文書からも収集され、Qwen2.5-VLを使用してテキストを抽出。Qwen2.5で品質を向上させたという。また、数学やコードのデータ量を増やすために、Qwen2.5-MathとQwen2.5-Coderを使用して合成データを生成した。
事前学習プロセスは3段階で構成されており、第1段階ではコンテキスト長4Kトークンで30兆以上のトークンを学習。第2段階ではSTEM、コーディング、推論タスクなどの知識集約型データの割合を増やし、最終段階では高品質な長文コンテキストデータを使用してコンテキスト長を32Kトークンに拡張している。
事後学習プロセスでは、長いCoT(思考連鎖)のコールドスタート、思考の強化学習、思考モードの融合、一般的な強化学習という4段階で235B-A22Bと32Bを作成。その結果を蒸留することで30B-A3Bやその他の小型Denseモデルを作成した。
Qwen3モデルはHugging FaceやKaggleなどのプラットフォームで利用可能。ローカルでの使用には、Ollama、LMStudio、MLX、llama.cpp、KTransformersなどのツールが推奨されている。Alibabaが提供するWebアプリ「Qwen Chat」でも利用できる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「ChatGPTのコネクタでつながるし、M365 Copilotいらなくない?」→有識者3人に聞いてみた 知らないと損するコンテキスト管理「Work IQ」の仕組み
-
2
JASRAC、「AI作曲・人間作詞」の曲は管理します――「人間の創作的寄与の有無」で線引き
-
3
公式がワンコーラス公開→AIで無断フルコーラス化、拡散 大原ゆい子氏「無職転生III」OPが被害
-
4
中国が人型ロボット開発競争をリードする「納得の理由」 日本に残された逆転シナリオは?
-
5
ChatGPTで広告表示へ 無料・Goプランが対象 6月22日にポリシー更新
-
6
生成AI台頭、経営コンサルの倒産・廃業が過去最多ペース “補助金頼み”限界に
-
7
「Siri AI」の進化に「Geminiそのまま」の誤解――現地取材で見えた“新生Apple Intelligence”の全貌
-
8
考えるSaaSは死に、SoRが生き残る──急成長中Sansan「Contract One」から読み解くリーガルテックの明暗
-
9
サッカーW杯、偽ライブ配信サイトに注意 生成AIで詐欺が巧妙化 Acronisが警告
-
10
Anthropic、最上位「ミュトス」級モデルを一般提供 悪用防ぐ保護機能を備えた「Claude Fable 5」
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR