生成AIの急速な普及に伴い、処理に不可欠な半導体の不足が深刻だ。半導体メーカーやハイパースケーラー、その他のITプロバイダーは、企業が生成AI導入に必要とするプロセッサの提供を急いでいる。
この記事は会員限定です。会員登録すると全てご覧いただけます。
生成AI(人工知能)の導入に向けた2023年の熱狂の波は、2024年になって大きな障壁に直面するかもしれない。それは、生成AIで必要な半導体であるGPU(Graphics Processing Unit)の不足だ。
「ChatGPT」の登場以降、生成AIモデル展開やパイロットプログラム、議会公聴会、そして企業の取締役会での話題はもっぱら潜在的な半導体不足に関する懸念だ(注1)(注2)(注3)。
2023年5月の米国議会の上院公聴会で、OpenAIのCEOのサム・アルトマン氏は「実際、GPUは非常に不足しているため、当社のプロダクトを使用する人は少なければ少ないほど良い」と率直に話している(注4)。
クラウドプロバイダーも注意を促している。
Microsoftは2023年7月の年次報告書で「GPUのサプライチェーン」をリスク要因に挙げており、Amazon Web Services(AWS)は同年10月にML(機械学習)に最適化したGPUクラスタを展開した際にこの問題を提起した(注5)。AWSは発表の中で「より多くの企業が生成AIの変革力を認識する中で、GPUの需要は供給を上回っている」と述べている(注6)。
CIO(最高情報責任者)にとってはGPUの手配よりも、AI導入の下地を整えることの方が目下の課題だ。生成AIモデルの微調整に必要なデータや人材、ツールの収集から、急増するクラウドベースのAIサービスやSaaSアドオンの選別まで、その準備プロセスは多岐にわたる(注7)。
調査分析会社のHFS Researchのエグゼクティブ・リサーチ・リーダーであるトム・ロイナー氏は「CIO Dive」に対して「GPUの制約は実際に存在する。しかし企業やITリーダーが解決しなければならないより大きな問題は、どのようなビジネスケースに対しAIを導入するかという点だ」と語っている。
IT部門以外では、CIOはクラウドプロバイダーによる短期的な半導体供給の変動の影響を受けずにいる。IT専門調査会社のIDCでコンピューティング半導体部門のリサーチバイスプレジデントを務めるシェーン・ラウ氏によると、ほとんどの企業は処理能力のために1社以上のハイパースケーラーを利用しているという。
ラウ氏は「オンプレミスでGPUを購入しようとしている企業は順番待ちになるかもしれないが、クラウドサービスプロバイダーを含むベンダーが提供するトレーニング済み生成AIモデルにとってはGPU不足に対する懸念が最も深刻である」と述べた。
しかし、GPUサプライチェーンのボトルネックは、企業の末端にまで影響を与える可能性がある。
「GPUが枯渇する前に、Dellの適切なサーバやPC、あるいは適切なクラウドサービスを導入できなければ、それはどの企業にとっても問題となるだろう」と、コンサルティング会社のForresterのバイスプレジデント兼リサーチディレクターであるグレン・オドネル氏はCIO Diveに語った。
「CIOは通常、NVIDIAやIntel、Samsungといったメーカーから直接半導体を購入することはない。クラウド経由でネットワーク環境を利用できるようにした上で、DellやHP、Microsoftなどの半導体メーカーと提携したベンダーが販売するハードウェアや製品を通じて間接的に処理能力を調達している」(オドネル氏)
PwCのパートナーで生成AIのリーダーであるブレット・グリーンスタイン氏は「幅広く展開することを計画しているCIOは、今すぐクラウドプロバイダーと容量の予測について話し合うべきだ」と話した。
同氏によれば、企業がワークロードの効率的なバランスを学ぶにつれて、GPUコンピューティングのコストも下がる可能性がある。
生成AIの急速な普及によるGPU需要は、企業のモバイルデバイス購入に拍車を掛けたハイブリッドワークへのシフトに似ている。米国のCHIPSおよび科学法(CHIPS and Science Act:半導体の開発促進および保護等の法律)の影響もあり(注8)、GPU生産能力の強化が少しずつ進んでいるものの、供給に関する懸念は2025年迄続くだろうとオドネル氏は予測する。
ハイパースケーラーであるAWSやMicrosoft、Google Cloud、Oracleはこの急増に備えるため、GPUサプライヤーのNVIDIAとの提携を固め、AIに最適化されたサーバでデータセンターの容量を増強しようと躍起になっている(注9)。
2023年の収益が急増したNVIDIAは制約を管理しているようだ(注10)。
同社によると、半導体メーカーは2023年を通して増産を実施し、2024年も継続する意向だ。同社の広報担当者は「顧客は年間を通じて製品の供給能力が向上することを期待している」と答えた。
不足を回避するため、3大クラウドプロバイダーはChatGPTに先立ち、AIに最適化されたプロセッサの開発を開始した。2023年11月、AWSは「AWS Trainium」と「AWS Inferentia」のMLチップの最新版を発表し、Microsoftは2つの独自AIチップを発表した(注11)(注12)。Google Cloudは同年8月、GPUに代わるTPU(Tensor Processing Unit:演算処理装置)のアップグレードを公開した(注13)。
「もし不足が生じれば、最初に気付くのはパブリッククラウドプロバイダーだろう」とGartnerのバイスプレジデントアナリストであるシド・ナグ氏は言う。
問題は半導体の設計ではなく製造能力だ。
「GoogleやAmazon、Appleはもちろん、NVIDIAでさえこれらの半導体を製造していない。実際に半導体を製造する企業はごくわずかだ」とオドネル氏は述べ、業界の主要企業としてTSMC(Taiwan Semiconductor Manufacturing Company)、Samsung、GlobalFoundriesを挙げた。
同氏によると、2023年12月にPC向けにAIに最適化したチップを発表したIntelも生産を拡大しているという(注14)。
今のところ、生成AIツールの導入を検討する企業やそのCIOはまだ半導体不足による危機感を抱いていないようだ。
コンサルティング企業West Monroeのプロダクトエクスペリエンスおよびエンジニアリングラボのシニアパートナーであるエリック・ブラウン氏は、『CIO Dive』に対し「私のクライアントのほとんどはGPUが不足することはありません。私のクライアントはクラウドプロバイダーを効果的に使用する方法を模索しており、恐らく特定のGPU向けに最適化したクラウド製品を提供するCoreWeaveのようなスタートアップに注目している」と話した。
生成AIと初期トレーニングに必要なコンピューティングを強化する基盤モデルの巨大なサイズが、GPU枯渇の主な原因だ。複数の業界アナリストによると、2024年1月初めにリリースされたMicrosoftの「Phi suite」のような、より小型で抑制された生成AIモデルがGPU消費量の削減に役立つと見込んでいるという。
ナグ氏は「Gartnerは小規模でより厳選され、特定のユーザーに限定されて、パブリッククラウドに依存しない可能性のある大規模言語モデル(LLM)の登場を予測している」とし、2023年3月にサービスを開始した金融特化型LLMである「BloombergGPT」を例に挙げた。
「これらの生成AIモデルは、分散クラウドおよびオンプレミスのアプリでも実行できる。コンピューティングリソースの観点からすれば、その種の生成AIモデルに対応するの必要な処理能力は、それほど高くはない」(ナグ氏)
テクノロジーが成熟するにつれて、CIOはGPUの調達方法やLLMツールの実装方法についてもより賢くなるだろう。生成AIモデルのトレーニングは多くのエンタープライズアプリケーションでは必要ないし、全てのAI操作にGPUが必要なわけでもない。推論にはモデルデータやクエリ、タスク固有のプロンプトの供給が必要で、それは高性能CPUを使えば実現できる。
ブラウン氏は「私たちを訪ねてくるクライアントの大多数は、生成AIモデルをトレーニングする必要があると考えていますが、実際はそうではなく、セミトレーラーで卵を移動させるようなものだ」と述べた。
ブラウン氏によると、多くのユースケースでは、熟練したプロンプトエンジニアリングと既製の生成AIモデルで何ができ、何ができないかについての明確なガイダンスだけが必要になる。ファインチューニングは幾つかのパラメータの変更を伴うものの、トレーニングよりもはるかに狭い範囲で済む。
CIOと企業が問題設定にソリューションを合わせることに知恵を絞るにつれ、業界はGPUリソースへの依存を減らしていくだろう。
ブラウン氏は「多くの人が人手不足はイノベーションを阻害するメカニズムだと考えているが、私はそれがイノベーションを促進させると考えている。CIOは適切な仕事に適切なツールを今より効果的に使用する方法を考えるようになる」と指摘した。
CIOがGPU不足による制約を感じ始めたら、魔法のような解決策はない。選択肢の一つは、供給が改善されるまで待つことだとオドネル氏は言う。そうでなければ、CIOは代替製品を探すか、より多くの金額を支払うか、あるいは野心を抑える準備をしなければならない。
「20の異なるAIプロジェクトを引き受けたいと思うかもしれないが、実際には3つしかできないだろう」(オドネル氏)
(注1)The rise of generative AI: A timeline of triumphs, hiccups and hype(CIO Dive)
(注2)OpenAI to bring Altman back, revamp board(CIO Dive)
(注3)Cloudflare doubles down on inference workloads(CIO Dive)
(注4)Transcript: Senate Judiciary Subcommittee Hearing on Oversight of AI(Tech Policy Press)
(注5)Dear shareholders, colleagues, customers, and partners:(Microsoft)
(注6)AWS Announces Amazon EC2 Capacity Blocks for ML Workloads(Amazon)
(注7)The ABCs of AI tools(CIO Dive)
(注8)FACT SHEET: CHIPS and Science Act Will Lower Costs, Create Jobs, Strengthen Supply Chains, and Counter China(The White House)
(注9)Hyperscaler data center capacity to nearly triple by 2029(CIO Dive)
(注10)Nvidia revenues soar amid hyperscaler AI rush(CIO Dive)
(注11)AWS Unveils Next Generation AWS-Designed Chips(Amazon)
(注12)With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand(Microsoft)
(注13)Google Cloud unveils new TPUs in race to optimize AI hardware(CIO Dive)
(注14)Intel infuses PCs with AI chips as enterprise refresh rush nears(CIO Dive)
© Industry Dive. All rights reserved.