大規模言語モデル(LLM)を自社開発する、LLMの追加学習やファインチューニングによって自社に最適化したAIを作る、AIなどを使って医薬品や新材料を開発する、ビッグデータを解析する――これらは大規模なコンピューティングリソースがなければ成り立たない。
これまでもテクノロジーが進化するたびに、より高度なコンピューティングリソースが求められてきた。生成AIブームが到来した現在は、リソースの獲得競争が激化の一途をたどっている。
高度なコンピューティングリソースが必要な場合、「オンプレミスで構築する」「クラウドサービスで調達する」というパターンから選ぶことになる。高額な投資になるので、費用対効果や利用期間、導入の手間などさまざまな観点から考慮することになる。
そんな中、NVIDIAの主力GPUである「NVIDIA H200 Tensor コア GPU」(以下、NVIDIA H200)を月額278万3000円で提供するクラウドサービスが現れた。企業はどのようなコンピューティングリソースを求めていて、どのように確保しているのか。今どきの事情を取材した。
AI時代のコンピューティングリソースとして主役級の活躍をしているのが「GPU」だ。膨大な演算処理を並列計算によってさばき切るGPUは、巨大化するLLMの演算を支えている。LLMはパラメーターが多いほど“賢い”と言える。高精度なAIを開発しようとするほどパラメーター数は増加する傾向にあり、MetaのLLM「Llama」は約70億パラメーターからスタートして約4000億パラメーターの「Llama 3.1」に成長した。もちろん演算量も飛躍的に増えている。
「LLMの開発やチューニングにおいて厄介なのが、LLMや学習データを完全にロードしないと学習や推論に取り掛かれない点です。メモリ容量が小さいGPUだとLLMを読み込めません。この問題に対応すべく、GPUベンダーはメモリ容量を巨大化させる路線で新製品を開発しています」――こう説明するのは、GPUサーバをクラウドサービスとして提供するハイレゾの山田岳史氏だ。
数あるGPUの中でもNVIDIA H200に熱い視線が注がれている。NVIDIA製品の中でも特にハイエンドなGPUで、141GBの高速メモリ「HBM3e」を搭載。前モデルである「NVIDIA H100」に対してメモリ容量は約2倍、帯域幅は約1.4倍に向上された。
NVIDIA H200を最大8基搭載してGPU間を高速インターコネクトで接続するサーバプラットフォーム「NVIDIA HGX H200」なら、メモリ容量は最大で1128GBになる。Llama 3.1の推論に必要なメモリ容量が約800GBに上るケースもあるが、NVIDIA HGX H200なら対応可能だ。なお、LLMのモデルサイズや用途によって必要なメモリ容量が異なる点に注意したい。
「NVIDIA H200を大量に確保すればいい」と言いたいところだが、そうは問屋が卸さない。NVIDIA H200を搭載したGPUサーバを用意してAIインフラをオンプレミスで構築するのは容易ではないと話すのは、ハイレゾの販売パートナーであり企業や官公庁のITインフラ構築を支援するアルゴグラフィックスの棚橋拓也氏だ。
オンプレミスでNVIDIA HGX H200を導入するのが難しい理由の一つが「価格」だ。NVIDIA HGX H200は1台当たり5000万円以上の高値で取引されることも多いと棚橋氏は言う。資金に余裕がある企業を除き、NVIDIA H200の導入を断念せざるを得ないのが現状だ。
「技術革新の速さ」も悩みの種になる。毎年のようにGPUの新モデルが登場して処理速度やメモリ容量などがアップデートされているので、「翌年にはもっと進化したGPUが登場する」というケースも多い。すぐに最新モデルに乗り換えたいところだが、減価償却に約5年かかるのでおいそれと入れ替えることもできない。
「研究機関やスタートアップは、国の補助金や支援制度を研究の原資にしていることがあります。これらは1〜2年単位で成果を求められたり支援が打ち切られたりするので、GPUサーバを買い切るのはコストもリスクも高いでしょう」(山田氏)
山田氏は「NVIDIA H200をオンプレミスで導入すると、保守担当はかなり嫌ではないでしょうか」と語る。ハイエンドGPUは高いパフォーマンスを発揮する一方で、GPUに高い負荷がかかるので故障率が高い傾向にある。頻繁にオンサイトで保守する必要があるので、情報システム部門やインフラエンジニアの負担が増えてしまう。
サーバルームやデータセンターの「ファシリティー」にも課題がある。GPUの発熱量が増加し、それを冷やすために大量の電力を消費するようになった。GPUを8基搭載したNVIDIA HGX H200の消費電力は10キロワットに上るので、これを支える設備を用意するのは容易ではない。
「データセンターにおける1ラック当たりの給電量は約6キロワットです。1ラックに設置できるサーバの台数が限られるので、ラックスペースに無駄が生まれてしまいます。対応できるのはスーパーコンピュータを運用している企業や研究機関くらいで、ファシリティーがボトルネックになることが多々あります」(山田氏)
NVIDIA H200をオンプレミスで導入する際に立ちはだかる「費用」「時間」「場所」「保守」といった課題を解決するのが、クラウドサービスの利用だ。ファシリティーや保守をクラウドサービスプロバイダーに一任でき、新しいGPUモデルが登場したら乗り換える、という選択がしやすい。
多くのクラウドサービスプロバイダーがGPUリソースを提供している。ハイレゾもGPUクラウドサービス「GPUSOROBAN」を展開していて、2024年12月に新メニュー「AIスパコンクラウド」を追加した。NVIDIA H200を8基搭載したGPUインスタンスをクラウドサービスとして提供する。
多くのクラウドサービスは初期費用を抑えられる一方で、利用量が増えると料金が一気に跳ね上がることがある。為替の影響を受けることもあり、棚橋氏は「電気代やデータセンターの利用コストなども含めると正確な試算は困難ですが、半年が過ぎた時点でメガクラウドの利用費がオンプレミス導入した場合の費用を上回りそうになったことがありました」と明かす。
ハイレゾは、この費用問題に正面から向き合った。AIスパコンクラウドの利用料金は1台当たり月額278万3000円で、電気代も含まれている。従量課金制ではなく月額固定制なので利用量を気にしなくていいのがメリットだ。山田氏は「頑張った価格です」と低価格をアピールする。この価格を実現できたのは、ハイレゾならではのサービス設計にある。
多くのクラウドサービスプロバイダーは、クラウドサービスを「ユーザー企業の事業を支えるシステム基盤」と位置付けている。安定稼働を支えるために、冗長性の確保や情報セキュリティ対策、高速かつ広帯域の通信ネットワークの確保などに多大な配慮を払っている。
「ハイレゾは、『演算リソースを貸し出す』というシンプルな思想でサービスを設計しています。ミッションクリティカルなサービスの基盤としてではなく、主にAI学習などのバッチ処理が対象です。ネットワークや電源、システム構成などを最小限で済ませて、施設は土地代が安い場所かつ廃校などを利用しています。データセンターらしくないファシリティーによるコスト削減の積み上げが、AIスパコンクラウドの低料金につながっています」(山田氏)
「LLMを開発する」「大規模なデータを解析する」といった用途に特化することで、ハイスペックながら低価格なクラウドサービスを実現した。こうした“割り切った施策”によって実現した低価格が認められて、大手自動車メーカーや電機メーカー、学術研究機関などがGPUSOROBANを利用している。
ハイレゾはデータセンターのファシリティーを徹底的に節約しているが、顧客対応はピカイチだと山田氏は自信を見せる。AIやGPU用アプリケーションがうまく動作しないとき、原因がインフラ側にあるのかアプリケーション側にあるのかを探る必要がある。ハイレゾは障害の切り分けなどにまで踏み込んだ対応をしている。
「お客さまのシステム運用を担うエンジニアから『分散学習のフレームワークがうまく動かない』という相談を受けたとき、ハイレゾにアドバイスを頂きました。専門的な知識を持っているので、われわれのエンジニアも心強いと言っていました」(棚橋氏)
AIスパコンクラウドを利用するとき、プリインストールしておくソフトウェアの種類やバージョンを細かく指定できるのもハイレゾの対応力の高さがあるからだ。細かな事前作業に煩わされることなく、開発や演算に本腰を入れられる。
「一度使えばサービスの良さをご理解いただけるはずです。顧客の多くが開発のたびに利用していただくリピーターです」(山田氏)
独自のアプローチでGPUサーバを低価格で提供しているAIスパコンクラウドは、生成AIの開発や高度なデータ処理に役立つサービスとして注目を集めそうだ。125万円で2週間使えるトライアルプランもあるので、高度なコンピューティングリソースの調達を検討している人は申し込んでみてはいかがだろうか。さらに、AIの研究開発環境をGPUSOROBANに構築したいということなら、各種ツールの導入から運用支援まで任せられるアルゴグラフィックスという力強いパートナーがいる。今後ますます重要になるAI用のコンピューティングリソースを手に入れたいという読者は、実績が豊富な両社に声掛けしてみるのがいいだろう。
Copyright © ITmedia, Inc. All Rights Reserved.
提供:株式会社ハイレゾ
アイティメディア営業企画/制作:ITmedia AI+編集部/掲載内容有効期限:2025年2月24日