NVIDIAは3月22日(米国太平洋時間)、データセンター向けの新型GPU「NVIDIA H100」を発表した。同GPUを搭載する同社製の深層学習システム「NVIDIA DGX H100」や各社のサーバは2022年第3四半期(7〜9月)に発売される予定だ。
NVIDIA H100(SMX5ボード版)
NVIDIA H100では、新しいGPUアーキテクチャ「Hopper(ホッパー)」を採用している。この名前はコンピューター科学者の故グレース・ホッパー氏にちなんでおり、現行のAmpere(アンペア)アーキテクチャの後継に位置付けられている。
Hopperアーキテクチャの主な特徴は以下の通りだ。なお「旧世代」は「NVIDIA A100」のことを指す。
- TSMCの4nmプロセスで製造
- 800億個のトランジスタを搭載
- Tensorコア(機械学習処理用コア)は第4世代に
- PCI Express 5.0接続に対応
- 新しい「Transformer Engine」を搭載
- 新しいTensorコアとソフトウェアの組み合わせで、自然言語モデルの学習を高速化
- 演算内容に応じて浮動小数点演算の精度を8bit(FP8)と16bit(FP16)との間で動的に切り替え
- 旧世代比で最大6倍のパフォーマンス改善
- MIG(マルチインスタンスGPU)は第2世代に
- 最大7基の仮想GPUを構築可能(旧世代と同様)
- 旧世代比で仮想GPU1基当たりのパフォーマンスは最大3倍、メモリ帯域は最大2倍に
- ハードウェアとハイパーバイザーを使ったセキュリティを確保
- HBM3(第3世代広帯域メモリ)に対応
- メモリ帯域幅は最大毎秒3TB(旧世代比で1.5倍)
Hopperアーキテクチャの概要
NVIDIA N100には、同社オリジナルの「SMX5ボード」と、PCベースのサーバなどで汎用(はんよう)的に使える「PCI Expressボード」の2種類のフォームファクターが用意される。搭載するGPUチップはいずれも「NVIDIA GH100」というものだが、微妙にスペックが異なる部分がある。
- GH100(オリジナル)の主なスペック
- SM(ストリーミングマルチプロセッサ):最大144基
- Tensorコア:SM1基当たり4基(最大582基)
- CUDAコア(並列計算用コア):SM1基当たり128基(最大1万8432基)
- グラフィックスメモリ:HBM2eまたはHBM3規格(最大6スタック)
- メモリコントローラー:512bit/最大12基
- L2キャッシュ:最大60MB
- SMX5ボードに搭載されるGH100の主なスペック
- SM:132基
- Tensorコア:528基
- CUDAコア:1万6896基
- グラフィックスメモリ:80GB(HBM3規格、5スタック)
- メモリコントローラー:512bit/10基(帯域幅は最大毎秒3TB予定)
- L2キャッシュ:50MB
- NVLinkの通信速度:最大毎秒900GB(片方向では毎秒450GB)
- TDP(熱設計電力):700W
- PCI Express 5.0ボードに搭載されるGH100の主なスペック
- SM:114基
- Tensorコア:456基
- CUDAコア(並列計算用コア):1万6896基
- グラフィックスメモリ:80GB(HBM2e規格5スタック)
- メモリコントローラー:512bit/10基(帯域幅は最大毎秒2TB予定)
- L2キャッシュ:50MB
- NVLinkの通信速度:最大毎秒600GB(片方向では毎秒300GB)
- TDP:350W
なお、用途が用途だけに、上記のうちグラフィックスの外部出力に直接利用できるリソースはごくわずかとなっている(※1)。
(※1)全構成共にTPC(テクスチャ処理クラスタ)のうち2基(SM換算で4基)のみとなる
GH100チップ(オリジナルスペック)の構造図
GH100チップにおけるSMの構成図
NVIDIA H100は、PCI Expressボード形態でも提供される(画像は派生モデルでネットワークアダプターを統合した「NVIDIA H100 CNX」)
Tensorコアを併用した場合の主な演算スペック(予定値)は以下の通りだ(前段の数字はSMXボード、後段の数字はPCI Expressボード)。
- FP64:60兆FLOPS/48兆FLOPS
- FP16(※2):1000兆FLOPS/800兆FLOPS
- FP8(※2):2000兆FLOPS/1600兆FLOPS
- TF32(※2):500兆FLOPS/400兆FLOPS
- BF16(※2):1000兆FLOPS/800兆FLOPS
(※2)スパース性(疎な行列の整理)を利用した場合、実効演算速度はこの2倍となる
一部の演算では、「1兆=T(テラ)」を超える「1000兆=P(ペタ)」FLOPSを実現している。
NVIDIA N100の演算能力(予定値)
先述の通り、NVIDIA H100は第4世代NVLinkに対応している。この新しいNVLinkでは直結できるGPUが最大8基であることに変わりはないが、帯域幅が最大毎秒900GB(双方向時)に高速化されている。
さらに、新世代では「NVLink Network interconnect」という機能が新たに追加されており、オプションのラックシステム「NVLink Switch」を利用することで最大256基のGPUをNVLinkを介して連携動作できるようになった。旧世代の「NVIDIA HDR Quantum InfiniBand」を使った連携と比べると帯域幅は9倍(双方向時)になるという。
第4世代NVLinkでは、NVLink Switchを別途用意することで最大256基のGPUをNVLinkを介して連携させられるようになった。従来のHDR Quantum InfiniBandを介した連携と比べると、帯域幅は9倍になる
NVIDIA H100の登場に合わせて、NVIDIAは2022年後半に、自社製の深層学習用サーバ「NVIDIA DGX H100」を発売する。主なスペックは以下の通りだ。
- CPU:x86アーキテクチャ×2(詳細は明記なし)
- GPU:NVIDIA H100×8(グラフィックスメモリは合計640GB)
- メインメモリ:2TB
- ストレージ:1.9TB SSD×2(OS用)+3.84TB SSD×8(データ用)
- OS:DGX OS(Ubuntuベース)
- 通常のUbuntu、またはRedHat Enterpriseにも対応(別途追加ソフトウェアが必要)
加えて、同社は複数台のDGX H100をNVLink Switchで連結した「NVIDIA DGX POD」「NVIDIA DGX SuperPOD」も発売する。DGX H100向けNVIDIA DGX SuperPODでは、最大で32台のDGX H100を搭載可能で、この場合は256基のGPUを連係動作させられることになる。32台を連携させた場合、FP8演算の能力は最大約1000京FLOPSとなり、「1000京=E(エクサ)」レベルとなる。
NVIDIA DGX H100(単体)のイメージ
その他、NVIDIA H100を搭載するサーバは以下のメーカーからも登場する予定だ。
- Atos
- BOXX Technologies
- Cisco
- Dell Technologies
- 富士通
- GIGABYTE
- H3C
- Hewlett Packard Enterprise
- Inspur
- Lenovo
- Nettrix
- Supermicro
Copyright © ITmedia, Inc. All Rights Reserved.