ここからは、Gaudiの最新世代となる「Gaudi 3」のアーキテクチャをザッと見ていくことにしたい。
その名の通り、Gaudi 3は「Gaudi 2」の後継となる。基本的なアーキテクチャは引き継ぎつつ、演算コアとなる部分を中心に増強を図ったものだと理解するといい。製品はOAMモジュール、ユニバーサルベースボード(OAMモジュールを8台搭載)に加えて、PCI Express 5.0カードも投入される。
上に示したOAMモジュール版の中央部には、Gaudi 3のチップが配置されている。上下に4つずつ、ほぼ正方形のダイが見えるが、これはHBM2E(広帯域メモリ)のチップだ。容量は1基当たり16GBなので、合わせて128GBのHBM2Eが搭載されることになる。
チップの中央部がGaudi 3の中核的なダイで、よく見ると真ん中に細い縦線がある。実はGaudi 3は2つのコアダイを「EMIB(Embedded Multi-die Integrated Bridge)」と呼ばれるインターポーザーブリッジで連結して1つのチップを形成している。2基のコアダイは全く同一の構成で(※1)、接続先のホストシステムからは1基のコアとして認識される。
(※1)厳密には、片方のコアダイではPCI Express 5.0インタフェースを無効化している(詳細は後述)
このコアダイは、TSMCの5nmプロセスで製造されている。Gaudi 2ではTSMCの7nmプロセスだったので、2nmほど微細化が進んでいる。
ここでGaudi 2とGaudi 3のスペックを比べてみる。下表を見ると、FP8演算は2倍、BF16演算は4倍、別ノードとのネットワーク速度は2倍、メモリー帯域は1.5倍に高められているという。
表をよく見てみると、MME(行列積算演算器)の理論性能がFP8とBF16で変わりないことが気になる(どちらも1835TFLOPS)。これは恐らく、FP8同士の積和算を、MMEの単位演算器のBF16演算モードを使い、精度重視の混合精度(Mixed Precision)で行っているからだと思われる。その証拠に、FP16の理論性能(459TFLOPS)が、BF16の理論性能値(1835TFLOPS)の4分の1しかない。
Gaudi 3の単位演算器は、素性としてはFP32演算器の体裁を取っているが、Gaudi 2から進化するに当たり、BF16(とFP8)演算に最適化した拡張モードを新搭載した――そんなところなのだろう。
なお、学習及び推論の精度を上げることを目的として、FP8において混合精度演算を活用するのは最近のトレンドなので、この改変の流れは自然なものだ。
いずれにせよ、理論性能値ではFP8とBF16が同一であっても、実際にはそのデータ入出力時のバス帯域消費は半分にできているため、実効性能はFP8利用時の方が良くなるはずである。
上記の理論性能値から、Gadui 3の動作クロックが逆算できる。MMEの詳細は後述するが、MMEは「256byte×256byte」(2048bit×2048bit)の行列積算器であること、MMEはGaudi 3全体で8基搭載されていること、そしてBF16ではなく、普通のFP16演算時の理論性能値が459TFLOPSであることから、以下の計算が成り立つ。
459TFLOPS÷(128要素×128要素×2FLOPS×8基)≒1.75GHz(※1)
(※1)「256byte×256byte」は、FP16(16bit=2byte)を収納すると128要素×128要素となる
一応、検算のためにFP8の理論性能値を使って計算すると、以下の通りとなる。
256要素×256要素×2FLOPS×8基×1.75GHz=1835TFLOPS
スペック表と一致することが確認できた。
Gadui 3の搭載メモリは、Gaudi 2と同じHBM2Eだが、動作クロックが3.2GHzから3.6GHzへと引き上げられている。メモリのバス幅も6144bit(1024bit×6チャンネル)から8192bit(1024bit×8チャンネル)に引き上げられている。そのため、メモリのアクセススピードは毎秒3.7TBと脅威的な値になっている。
スペック表における「Networking」の項目は、別ノードのGaudi 3と連動動作をするためのインタフェース帯域のこと。先代では、200Gbpsイーサネットポートが12基搭載されていたが、Gaudi 3ではこれが24ポートになったので「200Gbps×24ポート÷8=毎秒600GB(片方向)」という通信速度だ。双方向なら倍の毎秒1200GBということになる。
なお、ホストシステムとの接続に用いられるPCI Expressバスは、時代に合わせてPCI Express 3.0からPCI Express 5.0に変更されている。
Intelの最新AIアクセラレーター「Intel Gaudi 3」は2024年第3四半期から本格出荷 一部OEMには先行出荷
リブランドした「Intel Xeon 6」はどんなCPU? Intelの解説から分かったことを改めてチェック
Xeon 6にLunar Lake 全方位で競合をリードする、信用のブランドがIntelだ――基調講演でパット・ゲルシンガーCEOが語ったこと
次世代CPU「Lunar Lake」でIntelが目指す“AI PC”とは? 驚くべき進化点と見える弱点、その克服法
AMDが新型GPUアクセラレータ「Instinct MI300シリーズ」の詳細を発表 「NVIDIA H100」よりも強い?Copyright © ITmedia, Inc. All Rights Reserved.