コラム

Intelの「Gaudi 3」って何? AIアクセラレーターとGPUは何が違う? NVIDIAやAMDに勝てる? 徹底解説!(3/6 ページ)

COMPUTEX TAIPEI 2024に合わせて、Intelが直近の技術動向を解説するイベントを開催した。そこではAIの学習と推論に特化したプロセッサ「Gaudi」の第3世代モデルも紹介された。競合のNVIDIAやAMDが汎用(はんよう)型のGPUベースの製品を出す中、一点突破”なGaudiシリーズに勝機はあるのだろうか?

Gaudi 3のアーキテクチャをもうちょっと深掘り

 先述の通り、Gaudi 3には全く同一機能を備えた2つの中核的なダイ「ダイ0」と「ダイ1」をつなぎ合わせて、1つのプロセッサとして仕上げている。

 それぞれのダイは、「MME×2基」「TPC(Tensor Processor Cores)×16基」「24MBのキャッシュメモリ」の塊を2セット備えている。Intelではこの塊を「DCORE(Deep Learning Core)」と呼んでおり、Gaudi 3では4セットのDCOREが備わることになる。

 DCOREは、NVIDIAのGPUでいうところの「GPC(Graphics Processing Cluster)」に相当するものだと考えればよい。

advertisement

Gaudi 3の全体ブロック図

 左右外辺にあるHBM2Eの16GBのメモリクラスターは、Gaudi 3からは16GB×8=128GBのまとまったメモリ空間として扱える。それぞれDCOREから見て「近い」「遠い」といった概念もない。

 それぞれのDCOREにある24MBのキャッシュメモリは「当該DCOREが独占的に利用する24MBのL2キャッシュ」として、または「全DCOREで共有する24MB×4=96MBのL3キャッシュ(事実上のラストレベルキャッシュ)」として運用可能だ。ただし、そのスループットはモードによって異なり、DCORE専用のL2キャッシュとして運用する場合は毎秒19.2TBと超高速だが、DCORE共通のL3キャッシュとして運用する場合が毎秒6.4TBまで速度が低下する(毎秒6.4TBでも相当に高速だが)。

 キャッシュモードの切り替えは、ユーザーが意図的に行える。「Intel Gaudiソフトウェアプラットフォーム」ベースで動作させている場合は、状況に応じてキャッシュモードを動的に切り替えることも可能だ。

 Gaudi 3には各ダイに12基の200Gbpsイーサネットポートを備えており、合わせて24基のイーサネットポートを利用できる。競合のNVIDIAではスケーリングを独自規格で行うのに対し、Gaudi 3は汎用性が高く、スイッチ/ハブも比較的手頃なイーサネットでスケーリングできることを強みとしている。

 同様に、各ダイには1基ずつ「メディアエンジン」も搭載されている。合わせて2基を同時に利用することも可能だ。


Gaudi 3では、200Gbpsイーサネットポートを計24基備えている。これを使って、スケーリング(クラスターの形成)を行うことになる

 逆に、各ダイに搭載されているにもかかわらず、同時利用できないのがPCI Express 5.0 x16インタフェースだ。「もったいないなぁ」と思うかもしれないが、現状のPCI Express規格では、最大バス幅は16レーン(x16)で、その2倍の32レーン(x32)で接続する手段が実用化されていない。そのため、意図的に片方を無効化しているようだ。


Gaudi 3を使ったシステムのソフトウェア/ハードウェアのレイヤーの概略図

Copyright © ITmedia, Inc. All Rights Reserved.