Google、LLMのメモリ消費を6分の1に削減する新技術「TurboQuant」発表

» 2026年03月27日 07時40分公開

[ITmedia]

　米Googleは3月24日（現地時間）、新たな圧縮手法「TurboQuant」に関する研究により、LLMを実行するために必要なメモリ量を6分の1に削減できる可能性があると発表した。

　この技術は、AIモデルが情報を処理する際に用いる高次元ベクトルデータのサイズを極限まで圧縮し、大規模AIや検索エンジンにおけるメモリのボトルネックを解消するものという。特に、LLMの推論時に頻繁に使用される情報を一時保存する「キーバリュー（KV）キャッシュ」の圧縮において、モデルの精度やパフォーマンスを犠牲にすることなく大幅な効率化を実現するとしている。

　TurboQuantは、データの構造を単純化して大部分の圧縮を行う「PolarQuant」と、そこから生じた微小な誤差を1ビットのデータで数学的に補正する「QJL」という2つの手法を効果的に組み合わせている。これにより、事前の追加学習やファインチューニングを行うことなく、KVキャッシュを実質的にわずか3ビットまで圧縮可能になる。

　実際のロングコンテキストテストでは、タスクの精度を完全に維持したままメモリサイズを6分の1以下に縮小できたほか、米NVIDIAの「H100」上での計算速度が最大8倍に向上するなど、顕著なパフォーマンス改善が確認された。

　この手法は、「Gemini」のような大規模モデルにおけるKVキャッシュのメモリ不足問題を解決する強力な手段となるだけでなく、膨大なデータベースからユーザーの意図や意味を読み取って類似情報を探す「ベクトル検索」の劇的な高速化にも貢献すると期待されている。

　Googleは、AIがさまざまな製品に統合されていく中で、こうした基礎的なデータ圧縮技術の重要性は今後ますます高まっていくとしている。なお、TurboQuantに関する一連の研究成果は、リオデジャネイロで4月23日から開催の国際会議「ICLR 2026」で発表する予定だ。

ソフトバンク子会社、インテルと協業　AI向け「次世代メモリ」開発　29年度中に実用化へ
ソフトバンクの子会社であるSAIMEMORYは、米Intelと、大容量・広帯域・低消費電力をうたう次世代メモリ技術「ZAM」（Z-Angle Memory）の開発で提携すると発表した。
Qualcomm、データセンター向けAI推論チップ市場に本格参入　「AI200」「AI250」発表
Qualcommは、データセンター向けAI推論チップ「AI200」と「AI250」を発表した。AI200は2026年に、AI250は2027年に利用可能になる予定。サウジアラビアのHumainが200MW規模での導入を表明している。
富士通、LLMの軽量化技術を発表　1ビット量子化でも約9割の精度を維持　3倍に高速化も
富士通は、大規模言語モデル（LLM）を軽量化・省電力化する技術「生成AI再構成技術」を開発したと発表した。
Apple、iPhone上でのLLM実行を可能にする手法の論文を発表
Appleは「LLM in a flash:Efficient Large Language Model Inference with Limited Memory」という論文を発表した。メモリ容量が限られた端末上でLLMを実行するための革新的な手法を編み出したとしている。