AI開発でスパコンを使いたい! 用途別の選び方を紹介 小型タイプからデータセンター向けまで
AIハードの中で、一番大規模なシステムとなるスーパーコンピュータの選び方を紹介する。本格的なAI開発を行う企業や研究機関向けだが、AIに関連したサービスやプロダクトとして提供する際の参考にしてほしい。
AIの急速な発展を支えるAI向けハードウェア。スパコンからエッジまでさまざまな製品があるが、この特集では3回に分けて、用途別にAIハードの選び方を紹介してきた。第3回は、一番大規模なシステムとなるスーパーコンピュータを取り上げる。
このクラスになると個人が気軽に購入できるものではなく、本格的なAI開発を行う企業や研究機関などがターゲットとなる。PoCなどの段階では、第2回で紹介したPCやワークステーションでも事足りるが、事業としてAI開発を行い、実際のサービスやプロダクトとして提供するには、スパコン、あるいはHPC(ハイパフォーマンスコンピューティング)と呼ばれるクラスのシステムが欲しくなる。
ラックマウントタイプの小型なスパコン
まずは、AI開発用スパコンを紹介する。AI開発用スパコンは、ラックマウントタイプの比較的小型の製品と、データセンターに設置するための大型システムに大別できるが、前者の製品でも消費電力や発熱、騒音などが大きい。そのため、一般のオフィスなどに設置するものではなく、基本的にサーバルームなどの専用の部屋に設置することになり、部屋の冷却や電源供給にも配慮する必要がある。
ラックマウントタイプのAI開発用スパコンの代表的な製品が、NVIDIAの「DGX A100」と「DGX H100」である。DGX A100は、6Uフォームファクターのスパコンであり、NVIDIA A100 GPUを8基搭載し、その演算性能は5PFLOPSに達する。
GPU1基当たりのメモリは40GB版と80GB版があり、前者の場合GPUメモリは合計320GB、後者の場合GPUメモリは合計640GBとなる。CPUはAMD EPYC 7742を2基搭載し、メインメモリは1TBまたは2TBとなる。GPT-4などのLLM(大規模言語モデル)に代表されるサイズの大きなモデルの学習を複数並列で行えるだけのパフォーマンスを実現した製品だ。
「DGX H100」は、DGX A100の上位となる8Uフォームファクターのスパコンである。NVIDIA H100 GPUを8基搭載し、32PFLOPSという驚異的な演算性能を実現。GPUメモリは合計640GBであり、生成AIやその他のTransformerモデルを活用したAI製品の開発に適した製品だ。CPUとしてXeon Platinum 8480Cを2基搭載し、メインメモリは2TB。DGX H100の消費電力は最大10.2KWに達するため、電源周りの対応も必要になる。
コンピュータシステム関連事業を手掛ける東京エレクトロンデバイス(神奈川県横浜市)では、超高速ディープラーニングシステム「Cerebras CS-2」を販売している。ウェハースケールの超巨大チップ「WSE-2」を搭載した15Uフォームファクターのディープラーニング専用アクセラレータだ。
WSE-2は21.5cm角の大型半導体で、積和演算を実行するコアを85万個と高速なローカルメモリを搭載した、ディープラーニングの学習に特化したチップであり、効率良い学習が可能。なお、CS-2はAIアクセラレータとして動作するため、動作には別途サーバを用意し100GbEで接続して使う必要がある。
NECは独自のベクトルエンジンを搭載するスパコン「SX-Aurora TSUBASA」を提供している。同社のSXシリーズは従来大規模なデータセンター向けのモデルばかりだったが、SX-Aurora TSUBASAからはワークステーションやラックマウントモデルも提供するようになった。PythonやC++、Fortranでの開発が可能で、CPUでの実行環境からであれば移行に際してソースコードを書き換えるはほぼないとしている。
データセンター向けの大規模スパコン
DGX A100やDGX H100は、複数台組み合わせてクラスタを組むことも想定されており、NVIDIAではそうした大規模スパコンのレファレンスアーキテクチャを「DGX BasePOD」や「DGX SuperPOD」と名付けて提供している。
例えば、DGX H100を32台組み合わせたDGX SuperPODの性能は約1EFLOPS(=1PFLOPSの1000倍)に達する。DGX A100を280台組合せたスーパーコンピュータ「NVIDIA Selene」も1EFLOPSを超える性能を実現しており、米国立衛生研究所と米テキサス大学オースティン校で稼働している。
短期間なら、オンプレではなくクラウドサービスも
AIハードの選び方という範囲からはやや外れてしまうが、オンプレでスーパーコンピュータを導入するのは設置場所や費用などの問題で難しいという場合は、AI向け計算資源を提供しているクラウドサービスを利用する手もある。必要な期間だけ必要な計算資源を利用できることがクラウドの利点だ。
もちろん、長時間占有する場合は、オンプレのほうがコスト的に有利になることもあるが、開発の一定期間だけコンピューティングパワーが必要になるなら、クラウドサービスが向いている。
AI向けクラウドサービスの代表が、さくらインターネットが提供する「さくらの専用サーバ 高火力シリーズ」である。高火力シリーズでは、NVIDIA V100を4基搭載したサーバを月額28万8200円で利用できる。
また、日本最大級のGPU専用データセンターを運営するハイレゾ(東京都港区)は、低価格で使えるGPUクラウドサービス「GPUSOROBAN」を提供している。GPUSOROBANでは、NVIDIA A100を1枚搭載したインスタンスを月額22万3133円で利用できる他、DGX A100に相当するNVIDIA A100を8基搭載したインスタンスも月額132万184円で利用できる。
関連記事
- AI開発に挑戦したい! PC・ワークステーションは何を選ぶべき? 用途や目的別に解説
PCやワークステーションは、AI開発において推論だけでなく学習にも使われる。AIを活用した新たなプロダクトを開発することも可能で、エッジデバイス以上にさまざまな用途に使われる。その中から、特に代表的な製品を紹介する。 - 最小のAIハード「エッジデバイス」の選び方 SBC、FPGA、産業用組み込みPCを解説
AIの急速な発展を支えているのが、AI演算を効率良く実行できるAIハードだ。一口にAIハードといっても、スパコンからエッジまでさまざまな製品があり、用途によって最適な製品が異なる。AIハードの中でも1番小さなハードであるエッジデバイスを紹介する。 - Meta、AI強化に向けた自社開発のAIチップ、スパコン、データセンター、生成AIアシスタントを発表
MetaはAIに関する取り組みについて発表した。自社開発のAIチップ2種、スパコン「RCS」の進捗、GitHub Copilotのような「Code Compose」、AIデータセンターについてだ。 - 東工大のスパコン、リニューアルへ 国内2位の性能に
東京工業大学が次世代スーパーコンピュータ「TSUBAME4.0」の構築を始める。国内2位の理論演算性能になる見込み。来春完成をめどに日本ヒューレット・パッカード及びNVIDIAと構築を進める。 - “和製GPT”競争勃発か サイバーエージェント、独自の日本語LLM発表 「活用を始めている」
サイバーエージェントは11日、独自の日本語LLMを発表した。すでに130億パラメータまで開発が完了し、広告の制作などに活用を始めているという。
Copyright © ITmedia, Inc. All Rights Reserved.