第2のDeepSeekショック? オープンな中国LLM「Qwen3」シリーズが破格の性能で話題 最大モデルはOpenAI o1やGemini 2.5 Proに匹敵、たった4BでもGPT-4oレベルに
中国Alibabaが4月29日(現地時間)に発表した、大規模言語モデル「Qwen」の最新版となる「Qwen3」シリーズが話題だ。フラッグシップモデルの「Qwen3-235B-A22B」は「DeepSeek-R1」の半分未満のパラメータ数ながら、OpenAIのo1やo3-mini、GoogleのGemini 2.5 Proなど他のトップモデルと並ぶ性能を達成したという。「Qwen3-4B」は小さなモデルでありながらも「GPT-4o」を多くの項目で上回るとしている。
公開した全てのモデルがオープンウェイトであるため、フラグシップの235B-A22B以外はデスクトップ向けハイエンドGPUなどで動作させることもできる。
Qwen3シリーズの特徴は思考(Thinking)モードと非思考モードを切り替えられること。思考モードはOpenAI o1やDeepSeek R1で言う「Reasoning」や、Claude 3.7 Sonnetで言う「Thinking」のことで、モデルが段階的に推論を行うことで回答の精度を上げるモードのこと。タスクの複雑さに応じて使い分けられる。
MoEモデルとしては大型の「Qwen3-235B-A22B」と小型の「Qwen3-30B-A3B」の2つ、Denseモデルとしては「Qwen3-32B」「Qwen3-14B」「Qwen3-8B」「Qwen3-4B」「Qwen3-1.7B」「Qwen3-0.6B」の6つが、オープンウェイトかつApache 2.0ライセンスで公開された。
MoE(Mixture-of-Experts)は、専門家(Experts)と呼ばれる複数のサブニューラルネットワークを内部に持ち、実際に推論する際はそのうちの数個のみを活性化パラメータとして利用するモデル。対するDense(密)モデルはパラメータを全て利用して推論する従来的なモデル。MoEは計算コストを抑えながら性能を上げられる側面を持つ。
小型MoEモデルの「Qwen3-30B-A3B」も興味深い性能を示す。活性化パラメータが10倍ある同社の思考モデル「QwQ-32B」を上回る性能を発揮するという。活性化パラメータが小さい分、推論時の実行速度の向上が見込まれる。
Qwen3は119の言語と方言をサポートしており、日本語も含まれている。これにより、グローバルなアプリケーション開発が可能になり、世界中のユーザーがこのモデルの能力を活用できるようになるとしている。
Qwen3の事前学習には、Qwen2.5の18兆トークンに対し、約2倍の36兆トークンを使用した。このデータセットはWebサイトだけでなくPDF形式の文書からも収集され、Qwen2.5-VLを使用してテキストを抽出。Qwen2.5で品質を向上させたという。また、数学やコードのデータ量を増やすために、Qwen2.5-MathとQwen2.5-Coderを使用して合成データを生成した。
事前学習プロセスは3段階で構成されており、第1段階ではコンテキスト長4Kトークンで30兆以上のトークンを学習。第2段階ではSTEM、コーディング、推論タスクなどの知識集約型データの割合を増やし、最終段階では高品質な長文コンテキストデータを使用してコンテキスト長を32Kトークンに拡張している。
事後学習プロセスでは、長いCoT(思考連鎖)のコールドスタート、思考の強化学習、思考モードの融合、一般的な強化学習という4段階で235B-A22Bと32Bを作成。その結果を蒸留することで30B-A3Bやその他の小型Denseモデルを作成した。
Qwen3モデルはHugging FaceやKaggleなどのプラットフォームで利用可能。ローカルでの使用には、Ollama、LMStudio、MLX、llama.cpp、KTransformersなどのツールが推奨されている。Alibabaが提供するWebアプリ「Qwen Chat」でも利用できる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
農水省の“クソダサ”ポスター話題 「AIよりよっぽど良い」の声も 担当者に狙いを聞いた
-
2
え、21日で37テラも? 高性能SSDを食いつぶす「あのAIツール」にご用心:886th Lap
-
3
AIに「相手に電気ショックを与えろ」と命じ続けたらボタンを押すのか? 11のLLMで“ミルグラム実験” 抵抗できたのは……
-
4
ソフトウェアエンジニアの仕事は「ループを書くこと」になる 内側ループと外側ループ(ハーネス)入門
-
5
Anthropicの営業はAIエージェントをこう使う! 日本法人メンバーが明かす手の内
-
6
復活した「Fable 5」 米政府からのオーダーに対して、Anthropicはどう対策したのか
-
7
「Claude Fable 5」をサブスクの標準機能に――AnthropicのエンジニアがXに投稿 7月8日以降の「早期復活目指す」
-
8
AIで“ゲームキャラの出産二次創作”を何千回と生成する人も……ChatGPTの会話57万件から見えたヘビーな利用実態
-
9
3万円で「Yahoo!ニュース」にPR掲載 プレスリリースをAIで「ニュース風記事」に
-
10
光接続の標準規格「OCI」対応シリコン、GFが27年に投入
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR