米Googleは3月24日(現地時間)、新たな圧縮手法「TurboQuant」に関する研究により、LLMを実行するために必要なメモリ量を6分の1に削減できる可能性があると発表した。
この技術は、AIモデルが情報を処理する際に用いる高次元ベクトルデータのサイズを極限まで圧縮し、大規模AIや検索エンジンにおけるメモリのボトルネックを解消するものという。特に、LLMの推論時に頻繁に使用される情報を一時保存する「キーバリュー(KV)キャッシュ」の圧縮において、モデルの精度やパフォーマンスを犠牲にすることなく大幅な効率化を実現するとしている。
TurboQuantは、データの構造を単純化して大部分の圧縮を行う「PolarQuant」と、そこから生じた微小な誤差を1ビットのデータで数学的に補正する「QJL」という2つの手法を効果的に組み合わせている。これにより、事前の追加学習やファインチューニングを行うことなく、KVキャッシュを実質的にわずか3ビットまで圧縮可能になる。
実際のロングコンテキストテストでは、タスクの精度を完全に維持したままメモリサイズを6分の1以下に縮小できたほか、米NVIDIAの「H100」上での計算速度が最大8倍に向上するなど、顕著なパフォーマンス改善が確認された。
この手法は、「Gemini」のような大規模モデルにおけるKVキャッシュのメモリ不足問題を解決する強力な手段となるだけでなく、膨大なデータベースからユーザーの意図や意味を読み取って類似情報を探す「ベクトル検索」の劇的な高速化にも貢献すると期待されている。
Googleは、AIがさまざまな製品に統合されていく中で、こうした基礎的なデータ圧縮技術の重要性は今後ますます高まっていくとしている。なお、TurboQuantに関する一連の研究成果は、リオデジャネイロで4月23日から開催の国際会議「ICLR 2026」で発表する予定だ。
ソフトバンク子会社、インテルと協業 AI向け「次世代メモリ」開発 29年度中に実用化へ
Qualcomm、データセンター向けAI推論チップ市場に本格参入 「AI200」「AI250」発表
富士通、LLMの軽量化技術を発表 1ビット量子化でも約9割の精度を維持 3倍に高速化も
Apple、iPhone上でのLLM実行を可能にする手法の論文を発表Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR