Google、「Gemma 4」のテキスト生成を最大3倍高速化する「MTP」をリリース
米Googleは5月6日(現地時間)、4月に公開した高性能オープンモデル「Gemma 4」向けに、テキスト生成を最大3倍高速化するよう設計されたマルチトークン予測ドラフター(MTP)をリリースしたと発表した。
通常のLLMの推論はメモリ帯域幅がボトルネックになりやすく、単一のトークンを生成するためだけに数十億のパラメータをVRAMから演算ユニットへ移動させる必要があり、計算リソースが十分に活用されず高いレイテンシが発生するという課題を抱えている。特に、コーディングアシスタントや複数のステップを迅速に計画する自律型エージェント、ミリ秒単位の応答が求められるリアルタイムチャットや音声アプリケーションなどでは、この遅延は本番環境へのデプロイにおける最大の障壁となるため、推論速度を根本から引き上げる技術が必要とされていた。
この課題を解決するため、MTPは「Speculative Decoding」(投機的デコーディング)と呼ばれる仕組みを採用している。これは、モデルが1つずつ自己回帰的にトークンを生成する従来のプロセスとは異なり、大規模なターゲットモデル(Gemma 4の31Bなど)と、軽量で高速なドラフトモデルを組み合わせて推論を並行化するアプローチだ。アイドル状態の計算リソースを活用してドラフトモデルが複数の未来のトークンを先行して予測し、それをターゲットモデルが一括して検証する。ターゲットモデルが予測を承認すれば、1度のフォワードパスでシーケンス全体を受け入れ、さらに独自のトークンを1つ追加して出力するため、生成品質や推論ロジックを一切損なうことなく処理を大幅に高速化できる。
このドラフトモデルはターゲットモデルのアクティベーションを活用し、KVキャッシュを共有することで効率を高めている。さらに、小型モデル向けには語彙全体での計算を省くためのクラスタリング手法が組み込まれているほか、26Bの混合エキスパート(MoE)モデルでは、バッチサイズを4から8程度に増やして並列処理することでエキスパートの重みの再利用効率が高まり、ローカル環境で最大約2.2倍の速度向上が得られる仕組みとなっている。
MTPドラフターはGemma 4本体と同じApache 2.0ライセンスの下で公開されており、エッジデバイスから開発者のローカルワークステーション、クラウド環境まで、あらゆる場所で動作するように設計されている。Hugging Face Transformers、MLX、vLLM、SGLang、Ollama、LiteRT-LMなどの主要な推論フレームワークに対応しており、コンシューマー向けGPUやApple Siliconを搭載したPC上で複雑なオフラインワークフローを高速に実行できる。
「Google AI Edge Gallery」を通じてAndroidやiOSのモバイルデバイス上でも直接実行でき、特にエッジモデル(E2B、E4B)では推論が迅速に完了することでデバイスのバッテリー消費を抑える効果も期待できるとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
AIに頼ると技術が落ちる? 医師・エンジニアたちの懸念、検証結果は……Natureも警鐘
-
2
「ChatGPTにうちの会社が出てこない」──採用担当を悩ます“AI就活時代”の容赦なき実態
-
3
千葉県印西市はなぜ「データセンターの聖地」になったのか Google、Microsoftを呼び込んだ半世紀前の“読み違い”
-
4
Sakana AI、一部「ミュトス越えの性能」うたうAIを提供 複数モデルの“集合知”を活用
-
5
画面操作を“録画”→AIが作業代行 Codexに新機能「Record & Replay」
-
6
Anthropicへの500万ドル間接出資を解消、広告事業のイオレ 軸足移すAIデータセンター事業に資金投入
-
7
「AIを使う学生」vs.「使わない学生」、エッセイが創造的なのはどっち? 米大学が2025年に実証実験
-
8
工数「76%」削減 味の素グループが「経理AIエージェント」導入で先陣を切れたワケ
-
9
赤字7500億円で時価総額300兆円 SpaceX上場が突きつけた「AIの適正価格」
-
10
情シスが「日本1位のAIスパコン」作るまで 猶予は4カ月、ソフトバンク“社長プロジェクト”の舞台裏
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR