プロナビ

Intelの「Gaudi 3」って何? AIアクセラレーターとGPUは何が違う? NVIDIAやAMDに勝てる? 徹底解説!(2/6 ページ)

» 2024年07月05日 17時00分 公開
[西川善司ITmedia]

アーキテクチャから見る「Gaudi 3」

 ここからは、Gaudiの最新世代となる「Gaudi 3」のアーキテクチャをザッと見ていくことにしたい。

 その名の通り、Gaudi 3は「Gaudi 2」の後継となる。基本的なアーキテクチャは引き継ぎつつ、演算コアとなる部分を中心に増強を図ったものだと理解するといい。製品はOAMモジュール、ユニバーサルベースボード(OAMモジュールを8台搭載)に加えて、PCI Express 5.0カードも投入される。

OAMモジュール Gaudi 3のOAMモジュール版(HL-325L)の実物。中央部にあるチップに注目しておきたい
PCIeボードもある Gaudi 3は、OAMモジュール、ユニバーサルベースボードに加えて、新たにPCI Express 5.0カードでも提供される

 上に示したOAMモジュール版の中央部には、Gaudi 3のチップが配置されている。上下に4つずつ、ほぼ正方形のダイが見えるが、これはHBM2E(広帯域メモリ)のチップだ。容量は1基当たり16GBなので、合わせて128GBのHBM2Eが搭載されることになる。

 チップの中央部がGaudi 3の中核的なダイで、よく見ると真ん中に細い縦線がある。実はGaudi 3は2つのコアダイを「EMIB(Embedded Multi-die Integrated Bridge)」と呼ばれるインターポーザーブリッジで連結して1つのチップを形成している。2基のコアダイは全く同一の構成で(※1)、接続先のホストシステムからは1基のコアとして認識される。

(※1)厳密には、片方のコアダイではPCI Express 5.0インタフェースを無効化している(詳細は後述)

 このコアダイは、TSMCの5nmプロセスで製造されている。Gaudi 2ではTSMCの7nmプロセスだったので、2nmほど微細化が進んでいる。

FP8/BF16の演算性能が同じ“からくり”

 ここでGaudi 2とGaudi 3のスペックを比べてみる。下表を見ると、FP8演算は2倍、BF16演算は4倍、別ノードとのネットワーク速度は2倍、メモリー帯域は1.5倍に高められているという。

スペック表 Gaudi 2とGaudi 3のスペック表

 表をよく見てみると、MME(行列積算演算器)の理論性能がFP8とBF16で変わりないことが気になる(どちらも1835TFLOPS)。これは恐らく、FP8同士の積和算を、MMEの単位演算器のBF16演算モードを使い、精度重視の混合精度(Mixed Precision)で行っているからだと思われる。その証拠に、FP16の理論性能(459TFLOPS)が、BF16の理論性能値(1835TFLOPS)の4分の1しかない

 Gaudi 3の単位演算器は、素性としてはFP32演算器の体裁を取っているが、Gaudi 2から進化するに当たり、BF16(とFP8)演算に最適化した拡張モードを新搭載した――そんなところなのだろう。

 なお、学習及び推論の精度を上げることを目的として、FP8において混合精度演算を活用するのは最近のトレンドなので、この改変の流れは自然なものだ。

理論性能表 Gaudi 3の全理論性能値一覧

 いずれにせよ、理論性能値ではFP8とBF16が同一であっても、実際にはそのデータ入出力時のバス帯域消費は半分にできているため、実効性能はFP8利用時の方が良くなるはずである。

理論性能値から動作クロックを逆算してみる

 上記の理論性能値から、Gadui 3の動作クロックが逆算できる。MMEの詳細は後述するが、MMEは「256byte×256byte」(2048bit×2048bit)の行列積算器であること、MMEはGaudi 3全体で8基搭載されていること、そしてBF16ではなく、普通のFP16演算時の理論性能値が459TFLOPSであることから、以下の計算が成り立つ。

459TFLOPS÷(128要素×128要素×2FLOPS×8基)≒1.75GHz(※1)

(※1)「256byte×256byte」は、FP16(16bit=2byte)を収納すると128要素×128要素となる

 一応、検算のためにFP8の理論性能値を使って計算すると、以下の通りとなる。

256要素×256要素×2FLOPS×8基×1.75GHz=1835TFLOPS

 スペック表と一致することが確認できた。

メモリ回りとインタフェース回りも増強

 Gadui 3の搭載メモリは、Gaudi 2と同じHBM2Eだが、動作クロックが3.2GHzから3.6GHzへと引き上げられている。メモリのバス幅も6144bit(1024bit×6チャンネル)から8192bit(1024bit×8チャンネル)に引き上げられている。そのため、メモリのアクセススピードは毎秒3.7TBと脅威的な値になっている。

 スペック表における「Networking」の項目は、別ノードのGaudi 3と連動動作をするためのインタフェース帯域のこと。先代では、200Gbpsイーサネットポートが12基搭載されていたが、Gaudi 3ではこれが24ポートになったので「200Gbps×24ポート÷8=毎秒600GB(片方向)」という通信速度だ。双方向なら倍の毎秒1200GBということになる。

 なお、ホストシステムとの接続に用いられるPCI Expressバスは、時代に合わせてPCI Express 3.0からPCI Express 5.0に変更されている。

Copyright © ITmedia, Inc. All Rights Reserved.

最新トピックスPR

過去記事カレンダー