富士通、LLMの軽量化技術を発表　1ビット量子化でも約9割の精度を維持　3倍に高速化も

» 2025年09月08日 19時23分公開

　富士通は9月8日、大規模言語モデル（LLM）を軽量化・省電力化する技術「生成AI再構成技術」を開発したと発表した。同社が独自開発した量子化技術と特化型AI向け蒸留技術を採用。富士通のAIモデル「Takane」にこの技術を適用したところ、従来の主流手法よりも大きく上回る成果を得たという。

　LLMのような層が多いニューラルネットワークの場合、従来手法では量子化による誤差が指数関数的に蓄積する課題があった。そこで同社は、層をまたいで量子化誤差を波及させて誤差の増大を防ぐ新たな量子化アルゴリズム「QEP」を開発。併せて、独自開発した最適化アルゴリズム「QQA」を活用することで、LLMの1ビット量子化を実現した。

量子化技術の概要

　この量子化技術をTakaneに適用したところ、1ビット量子化で、量子化前と比較して精度維持率89％、量子化前の3倍の高速化を実現したという。従来の主流手法（GPTQ）の精度維持率は20％以下であるが、富士通の技術はこれを大きく上回った。「ハイエンドのGPU4枚を必要とする大型の生成AIモデルを、ローエンドのGPU1枚で高速に実行することが可能となった」（同社）

　蒸留技術については、基盤モデルに対して不要な知識をそぎ落としたり、新たな能力を付与したりする作業を通して、多様な構造を持つモデル候補群を作成。この候補群から顧客の希望に沿う最適なAIモデルを自動選定する仕組みを構築した。最終的に選定したモデルに対して、教師モデルの知識を蒸留。単なる圧縮ではなく、特定のタスクに特化したAIモデルの構築法を開発した。

特化型AI蒸留技術の概要

　この蒸留モデルをテストしたところ、各商談の勝敗を予測するテキストQAタスクの実証では推論速度が11倍に高速化し、精度は43％改善できたという。富士通は「高精度化とモデル圧縮を同時に実現することで、教師モデルを超える精度を、より軽量な100分の1のパラメータサイズの生徒モデルで達成できることを確認した」と説明。GPUメモリと運用コストをそれぞれ70％削減できたとアピールする。

　カナダのCohereの研究用オープンウェイト「Command A」をこの技術で量子化したAIモデルをHugging Face上で公開している。

　富士通は今後、これらの技術を独自モデルであるTakaneに適用し、さまざまな専門性を持つ軽量AIエージェントを開発・提供していく。

AIで病院の業務効率化　富士通、特化型AIエージェントを連携させる新システム開発
富士通は、複数のAIを連携させ、医療業務を自動化できる新システムを構築したと発表した。
スパコン「富岳NEXT」、NVIDIAが開発に参加　同社のGPUと富士通のCPUを連携　“世界最高”のAI性能目指す
理化学研究所は、スーパーコンピュータ「富岳」の後継機「富岳NEXT」の開発に、米NVIDIAが参加すると発表した。NVIDIAはGPU基盤に関する設計を担う。これにより、高いAI処理性能の実現を目指す。
富士通の次期CPU「MONAKA」も、NVIDIAのGPUと接続可能に　他社製CPUをサポートした「NVLink Fusion」登場
米NVIDIAは、同社のGPUと他社製CPUを接続する技術「NVLink Fusion」を発表した。富士通の次世代CPU「FUJITSU-MONAKA」もサポートし、NVIDIAのGPUとの連携を可能にするという。
富士通、AMDとタッグ　自社CPUと“H200超え”GPUで「低電力AI基盤」　27年初頭に投入
富士通とAMDは低コスト・低電力なAIプラットフォームの実現に向け、戦略的協業を始めた。
富士通、世界初の“偽情報検知システム”構築へ　NEC・NIIなど9者が協力　2025年度末の提供目指す
富士通は、9つの企業・研究機関などと協業し、世界初の偽情報対策システムを構築すると発表した。生成AIなどによる偽情報を的確に検知する仕組みを作り、2025年度末までの提供を目指す。