AI開発でスパコンを使いたい！　用途別の選び方を紹介　小型タイプからデータセンター向けまで

AIハードの中で、一番大規模なシステムとなるスーパーコンピュータの選び方を紹介する。本格的なAI開発を行う企業や研究機関向けだが、AIに関連したサービスやプロダクトとして提供する際の参考にしてほしい。

LINE

Hatena

　AIの急速な発展を支えるAI向けハードウェア。スパコンからエッジまでさまざまな製品があるが、この特集では3回に分けて、用途別にAIハードの選び方を紹介してきた。第3回は、一番大規模なシステムとなるスーパーコンピュータを取り上げる。

　このクラスになると個人が気軽に購入できるものではなく、本格的なAI開発を行う企業や研究機関などがターゲットとなる。PoCなどの段階では、第2回で紹介したPCやワークステーションでも事足りるが、事業としてAI開発を行い、実際のサービスやプロダクトとして提供するには、スパコン、あるいはHPC（ハイパフォーマンスコンピューティング）と呼ばれるクラスのシステムが欲しくなる。

ラックマウントタイプの小型なスパコン

　まずは、AI開発用スパコンを紹介する。AI開発用スパコンは、ラックマウントタイプの比較的小型の製品と、データセンターに設置するための大型システムに大別できるが、前者の製品でも消費電力や発熱、騒音などが大きい。そのため、一般のオフィスなどに設置するものではなく、基本的にサーバルームなどの専用の部屋に設置することになり、部屋の冷却や電源供給にも配慮する必要がある。

　ラックマウントタイプのAI開発用スパコンの代表的な製品が、NVIDIAの「DGX A100」と「DGX H100」である。DGX A100は、6Uフォームファクターのスパコンであり、NVIDIA A100 GPUを8基搭載し、その演算性能は5PFLOPSに達する。

　GPU1基当たりのメモリは40GB版と80GB版があり、前者の場合GPUメモリは合計320GB、後者の場合GPUメモリは合計640GBとなる。CPUはAMD EPYC 7742を2基搭載し、メインメモリは1TBまたは2TBとなる。GPT-4などのLLM（大規模言語モデル）に代表されるサイズの大きなモデルの学習を複数並列で行えるだけのパフォーマンスを実現した製品だ。

「DGX A100」（NVIDIAの公式Webサイトから引用）

　「DGX H100」は、DGX A100の上位となる8Uフォームファクターのスパコンである。NVIDIA H100 GPUを8基搭載し、32PFLOPSという驚異的な演算性能を実現。GPUメモリは合計640GBであり、生成AIやその他のTransformerモデルを活用したAI製品の開発に適した製品だ。CPUとしてXeon Platinum 8480Cを2基搭載し、メインメモリは2TB。DGX H100の消費電力は最大10.2KWに達するため、電源周りの対応も必要になる。

「DGX H100」（NVIDIAの公式Webサイトから引用）

　コンピュータシステム関連事業を手掛ける東京エレクトロンデバイス（神奈川県横浜市）では、超高速ディープラーニングシステム「Cerebras CS-2」を販売している。ウェハースケールの超巨大チップ「WSE-2」を搭載した15Uフォームファクターのディープラーニング専用アクセラレータだ。

　WSE-2は21.5cm角の大型半導体で、積和演算を実行するコアを85万個と高速なローカルメモリを搭載した、ディープラーニングの学習に特化したチップであり、効率良い学習が可能。なお、CS-2はAIアクセラレータとして動作するため、動作には別途サーバを用意し100GbEで接続して使う必要がある。

「Cerebras CS-2」（東京エレクトロンデバイスの公式Webサイトから引用）

　NECは独自のベクトルエンジンを搭載するスパコン「SX-Aurora TSUBASA」を提供している。同社のSXシリーズは従来大規模なデータセンター向けのモデルばかりだったが、SX-Aurora TSUBASAからはワークステーションやラックマウントモデルも提供するようになった。PythonやC++、Fortranでの開発が可能で、CPUでの実行環境からであれば移行に際してソースコードを書き換えるはほぼないとしている。

「SX-Aurora TSUBASA Vector Engine」

データセンター向けの大規模スパコン

　DGX A100やDGX H100は、複数台組み合わせてクラスタを組むことも想定されており、NVIDIAではそうした大規模スパコンのレファレンスアーキテクチャを「DGX BasePOD」や「DGX SuperPOD」と名付けて提供している。

　例えば、DGX H100を32台組み合わせたDGX SuperPODの性能は約1EFLOPS（＝1PFLOPSの1000倍）に達する。DGX A100を280台組合せたスーパーコンピュータ「NVIDIA Selene」も1EFLOPSを超える性能を実現しており、米国立衛生研究所と米テキサス大学オースティン校で稼働している。

「DGX SuperPOD」（公式Webサイトから引用）

短期間なら、オンプレではなくクラウドサービスも

　AIハードの選び方という範囲からはやや外れてしまうが、オンプレでスーパーコンピュータを導入するのは設置場所や費用などの問題で難しいという場合は、AI向け計算資源を提供しているクラウドサービスを利用する手もある。必要な期間だけ必要な計算資源を利用できることがクラウドの利点だ。

　もちろん、長時間占有する場合は、オンプレのほうがコスト的に有利になることもあるが、開発の一定期間だけコンピューティングパワーが必要になるなら、クラウドサービスが向いている。

　AI向けクラウドサービスの代表が、さくらインターネットが提供する「さくらの専用サーバ高火力シリーズ」である。高火力シリーズでは、NVIDIA V100を4基搭載したサーバを月額28万8200円で利用できる。

「さくらの専用サーバ高火力シリーズ」（公式Webサイトから引用）

　また、日本最大級のGPU専用データセンターを運営するハイレゾ（東京都港区）は、低価格で使えるGPUクラウドサービス「GPUSOROBAN」を提供している。GPUSOROBANでは、NVIDIA A100を1枚搭載したインスタンスを月額22万3133円で利用できる他、DGX A100に相当するNVIDIA A100を8基搭載したインスタンスも月額132万184円で利用できる。

「GPUSOROBAN」（公式Webサイトから引用）

AI開発でスパコンを使いたい！ 用途別の選び方を紹介 小型タイプからデータセンター向けまで

ラックマウントタイプの小型なスパコン

データセンター向けの大規模スパコン

短期間なら、オンプレではなくクラウドサービスも

関連記事

AI開発でスパコンを使いたい！　用途別の選び方を紹介　小型タイプからデータセンター向けまで