Googleは「Gemma 4」を公開した。4サイズで推論、コード生成、画像理解に対応し、小型は端末動作、大型は高性能を担う。少ない計算資源で高い性能を狙う設計だ。
この記事は会員限定です。会員登録すると全てご覧いただけます。
Googleは2026年4月2日(現地時間)、オープンモデル群「Gemma 4」を発表した。高度な推論とエージェント処理を主眼に据えた新世代モデルで、Apache 2.0ライセンスの下で公開する。Gemmaシリーズは初代公開後、累計4億回超のダウンロードと10万超の派生モデルを生み出しており、今回のGemma 4は、その流れを受けた新たな主力モデル群となる。
今回の発表において、性能とモデル規模の関係が大きな焦点となる。掲載図ではGemma 4 31BはEloスコアで1450前後を記録しており、26B MoEとともに、より大規模なオープンモデル群と肩を並べる高い性能を示している。Googleは、少ないパラメーター量で高い性能を引き出す設計をGemma 4の中核価値に据える。
モデルは4種類で、E2B、E4B、26B MoE、31Bをそろえる。E2BとE4Bの「E」はeffective parametersを示し、端末実装時の効率を重視した小型モデルだ。26B MoEはMixture-of-Experts構成を採用している。31BはDense構成の大型モデルで、品質の最大化を狙う。
用途ごとの棲み分けも明確だ。E2BとE4BはスマートフォンやIoT機器、ノートPCなどでのローカル実行を想定し、メインメモリ消費や電力効率、低遅延を重視する。E2Bは実効2.3B、E4Bは実効4.5Bで、いずれも128Kコンテキストに対応する。26B MoEは総パラメーター25.2B、推論時の有効パラメーター3.8Bで、速度面に強みを持つ。31Bは30.7Bで、256Kコンテキストを備える。
機能面では推論モード、コード生成、関数呼び出し、構造化JSON出力、システムプロンプト対応を実装し、エージェント処理に必要な基本機能をそろえた。全モデルがテキストと画像を扱い、E2BとE4Bは音声入力にも対応する。動画理解、OCR、文書やPDFの解析、UI理解、図表読解、手書き認識なども主要な能力に含まれる。多言語対応は事前学習で140超の言語におよぶ。
ベンチマークでも大型モデルが高い数値を示した。MMLU Proは31Bが85.2%、26B MoEが82.6%、AIME 2026は89.2%と88.3%、LiveCodeBench v6は80.0%と77.1%、GPQA Diamondは84.3%と82.3%だった。視覚系ではMMMU Proで76.9%と73.8%、MATH-Visionで85.6%と82.4%を記録した。長文評価MRCR v2 8 needle 128kでは31Bが66.4%、26B MoEが44.1%だった。
Googleは、26Bと31Bの非量子化bfloat16重みが単一の80GB NVIDIA H100 GPUに収まり、量子化版はコンシューマー用GPUでも動かせると説明する。小型モデル群はGoogle Pixel、Qualcomm Technologies、MediaTekとの連携を通じ、スマートフォンやRaspberry Pi、NVIDIA Jetson Orin Nanoなどでオフライン動作を狙う。Gemma 4は、端末から開発用ワークステーションまで幅広い計算環境にまたがるオープンモデル群として展開される。
米2強が狙う“AI社員”の普及 Anthropicは「業務代行」、OpenAIは「運用プラットフォーム」
Microsoftがまたもや値上げ M365サブスク料金を最大33%増の「言い分」
内製化拡大で2桁成長 それでも「ノーコードツール」の先行きが暗い理由
品川区とSHIFTが生成AI実証実験 電話対応自動化で行政サービス向上図るCopyright © ITmedia, Inc. All Rights Reserved.