先述の通り、Gaudi 3には全く同一機能を備えた2つの中核的なダイ「ダイ0」と「ダイ1」をつなぎ合わせて、1つのプロセッサとして仕上げている。
それぞれのダイは、「MME×2基」「TPC(Tensor Processor Cores)×16基」「24MBのキャッシュメモリ」の塊を2セット備えている。Intelではこの塊を「DCORE(Deep Learning Core)」と呼んでおり、Gaudi 3では4セットのDCOREが備わることになる。
DCOREは、NVIDIAのGPUでいうところの「GPC(Graphics Processing Cluster)」に相当するものだと考えればよい。
左右外辺にあるHBM2Eの16GBのメモリクラスターは、Gaudi 3からは16GB×8=128GBのまとまったメモリ空間として扱える。それぞれDCOREから見て「近い」「遠い」といった概念もない。
それぞれのDCOREにある24MBのキャッシュメモリは「当該DCOREが独占的に利用する24MBのL2キャッシュ」として、または「全DCOREで共有する24MB×4=96MBのL3キャッシュ(事実上のラストレベルキャッシュ)」として運用可能だ。ただし、そのスループットはモードによって異なり、DCORE専用のL2キャッシュとして運用する場合は毎秒19.2TBと超高速だが、DCORE共通のL3キャッシュとして運用する場合が毎秒6.4TBまで速度が低下する(毎秒6.4TBでも相当に高速だが)。
キャッシュモードの切り替えは、ユーザーが意図的に行える。「Intel Gaudiソフトウェアプラットフォーム」ベースで動作させている場合は、状況に応じてキャッシュモードを動的に切り替えることも可能だ。
Gaudi 3には各ダイに12基の200Gbpsイーサネットポートを備えており、合わせて24基のイーサネットポートを利用できる。競合のNVIDIAではスケーリングを独自規格で行うのに対し、Gaudi 3は汎用性が高く、スイッチ/ハブも比較的手頃なイーサネットでスケーリングできることを強みとしている。
同様に、各ダイには1基ずつ「メディアエンジン」も搭載されている。合わせて2基を同時に利用することも可能だ。
逆に、各ダイに搭載されているにもかかわらず、同時利用できないのがPCI Express 5.0 x16インタフェースだ。「もったいないなぁ」と思うかもしれないが、現状のPCI Express規格では、最大バス幅は16レーン(x16)で、その2倍の32レーン(x32)で接続する手段が実用化されていない。そのため、意図的に片方を無効化しているようだ。
Intelの最新AIアクセラレーター「Intel Gaudi 3」は2024年第3四半期から本格出荷 一部OEMには先行出荷
リブランドした「Intel Xeon 6」はどんなCPU? Intelの解説から分かったことを改めてチェック
Xeon 6にLunar Lake 全方位で競合をリードする、信用のブランドがIntelだ――基調講演でパット・ゲルシンガーCEOが語ったこと
次世代CPU「Lunar Lake」でIntelが目指す“AI PC”とは? 驚くべき進化点と見える弱点、その克服法
AMDが新型GPUアクセラレータ「Instinct MI300シリーズ」の詳細を発表 「NVIDIA H100」よりも強い?Copyright © ITmedia, Inc. All Rights Reserved.