ここからは、Gaudiシリーズの最新モデル「Gaudi 3」のアーキテクチャをチェックしてみよう。
Gaudi 3は2基のプロセッサーダイとHBM(広帯域メモリ)ダイを1チップに統合した構造となっている。最初からAIアクセラレーターという役割に特化して開発されているので、アーキテクチャーは非常に洗練されており、プロセスも先代の7nmから5nmへと微細化されている。
そのリソースもリッチな内容だ。具体的には、AI処理に特化した「TPCプロセッサ」を64基、「行列演算エンジン」を8基備える。これは前世代からそれぞれ2倍/4倍に増えている。SRAMキャッシュは先代比2倍の96MBで、HBMは容量が約1.3倍の128GB、帯域は1.5倍の毎秒3.7TBとなっている。
さらに、画像/映像処理用のメディアエンジンや、拡張用インタフェースもプロセッサーパッケージに統合する。ホストインタフェース用としてPCI Express 5.0 x16コントローラーと、スケールアップ/スケールアウト(ファブリック)用の200GbEコントローラ(24ポート)を統合している。
Gaudi 2とのパフォーマンス比較。FP8(8bit浮動小数点数)を使った演算能力は最大8倍、BF16(16bit浮動小数点数)を使った演算能力は最大4倍となった他、ファブリック用のネットワーク帯域は2倍、メモリ帯域は1.5倍となっているGaudi 3には、大きく分けると3種類のフォームファクター(形状)が用意されている。
基本形となる「HL-352L」は、AIアクセラレーターや演算特化型GPU向けの標準モジュール規格「OAM(Open Accelerator Module)」に準拠したメザニンカードだ。既にOAMスロットを備えているサーバを運用している場合は、増設/換装がしやすい。
ユニバーサルボード「HLB-325」は、HL-352Lを8基装着したものだ。広帯域のスケールアウト用ポートも備えているので、初期段階からある程度大規模にAIモデルの学習/運用をする場合に適している。
ベースボード「HLB-325」は、汎用(はんよう)的な19インチのフォームファクターに、Gaudi 3を8基あらかじめ搭載している。初めからある程度大規模にある程度大規模にAIモデルの学習/運用をする場合にお勧めだそしてPCI Express 5.0カードとして提供される「HLB-338」も用意される。PCI Expressカードは、一般的なサーバにも搭載されていることが多い。カード上にスケールアップ/スケールアウト用のポートも備えているので、より多くのユーザーにとって導入しやすいことが魅力だ
Copyright © ITmedia, Inc. All Rights Reserved.
提供:インテル株式会社
アイティメディア営業企画/制作:ITmedia PC USER 編集部/掲載内容有効期限:2024年6月27日