検索
コラム

それで、メモリ不足はいつまで続くの? なかなか終わらない狂騒のウラ側(2/3 ページ)

長引くメモリ不足。いつ安く購入できるようになるのか……。

Share
Tweet
LINE
Hatena

CPU需要が予想外に高まった2つの背景

 では何故こんなにもCPUの需要が高まったか、というと2つ理由がある。1つ目は、エージェントAI(Agentic AI)が急速に普及したためだ。

 従来LLMを利用するにあたっては、人間がプロンプトを入力すると、その返事が返ってくるという格好だった。ところがエージェントAIはこれをCPU上で動くエージェントが代行してくれる。このエージェントの稼働のために、膨大なCPU性能が必要になった、というのが1つ目の理由だ。

 4月、英Armが初のシリコン製品である「Arm AGI CPU」を発表した話を製造業向け媒体「MONOist」に書いたが、この冒頭で同社のレネ・ハースCEOが「今までは人がプロンプトから入力していたから、CPU性能はそれほど要らなかった」「今はエージェントが大量に動く関係で、GPUよりもCPUがボトルネックになっている」と説明しているのがまさにこの状況を示している。

 2つ目の問題はLLMに起因する問題だ。LLMはTransformerと呼ばれるモデルを利用するが、このモデルではQuery(Q)、Key(K)、Value(V)と呼ばれるものが利用される。3つとも行列なのだが、Queryは単語が「何を探しているか」を、Keyは検索対象のラベルで単語が「どんな情報を持っているか」を、Valueはその情報の「具体的な内容」をそれぞれ保持している。

 最終的にはQueryに対してどんなValueを返すのが適切かを計算してそれを出力して行く(この計算の事をAttentionと呼ぶ)のだが、LLMでは単語が加わるたびにAttentionがやり直されるので、長い文章になると猛烈な量のAttentionを実行しなければならない。

 これを少しでも軽減する仕組みが「KV-Cache」と呼ばれる。Qに対してAttentionを行った結果(KeyとValue)をメモリに保持しておき、同じQueryに対してはAttentionを行わずKV-Cacheからその結果を引っ張り出すことで高速化と計算量削減を図ろう、という仕組みだ。

 問題はこのKV-Cacheもまた肥大化する点だ。LLMでは文章をトークンとして扱うが、例えばLlama 3 70Bにおいては、8KトークンだとKV-Cacheのサイズは21GBほどで済むのに対し、128Kトークンだと328GBにも肥大するとされる。これはGPUのメモリに収まりきらないサイズである。

 こうした問題の解決策として、例えば「LMCache」という仕組みが考案されている。これはKVCacheにヒエラルキーを付け、すぐに使わないものはGPU上ではなくGPUに繋がっているCPUのメインメモリ(もしくは、そのCPUに繋がっているNVMe SSD)に退避させる仕組みだ。

 また米NVIDIAは元々、「Grace-Hopper」「Grace-Blackwell」「Vera-Rubin」のようにCPUとGPUを同じ基板の上に載せ、間をNVLinkで接続する構成を提供しているが、この際にCPUとGPUは「キャッシュコヒーレント」で接続されており、GPUから(CPU経由で)CPUのメインメモリをGPUのメモリのように扱う事が可能である。要するにCPUのメモリをGPUの拡張メモリ的に使っている訳だ。こうなると、ますますCPUのメモリ容量の重要性が増す訳である。

 ちなみにNVIDIAは「Storage-Next」という、GPUに直接NVMe SSDを接続する取り組みを研究しており、キオクシアが年内にサンプル出荷を開始する予定だ。そうでなくてもサーバを動かすにはSSDが必要で、サーバの出荷台数が増えたことに起因してSSDも既に払底気味だが、これが普及するとDRAMだけでなくSSDの需要も更に高まる事が予測される。

 LLMの普及に加え、エージェントAIの興隆により、こうしたCPU及びCPUに接続される標準的なDDR5メモリやNVMe SSDのニーズが急増した。その結果として、本当にコンシューマー向けのDDR5やNVMe SSDが払底する事になったのは致し方無い。

 なにしろメモリメーカーからすれば、単価が違いすぎる。この結果何が起きたかと言えば、PCマーケット向けに台湾ASRockが「HUDIMM」なる苦肉の策の規格(本来DDR5 DIMMは32bit×2の構成だが、これを32bit×1にすることでメモリコストを半額に抑えるというもの)を発表したり、SSDの価格が記録的な値段になったり、偽物のDDR5が出回ったり、とかなり混乱状態にある。

 PC専門媒体「ITmedia PC USER」の記事にもあるように、DDR5での自作を諦めてDDR4でそろえるなんて流れすら出てきており、こうした状況を察してか米AMDが引き続きSocket AM4のCPUの供給を続けており、低価格向けにはちょっとしたトレンドになっている。個人的にはどうかとは思うが、現実的な策ではあるとも思う。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る