AMDやNVIDIAのデータセンター/HPC向けGPU製品は、単位演算器としてSIMD演算器(ベクトル演算器:NVIDIA GPUなら「CUDA Core」)を備える。これ自体が3Dグラフィックス描画のためのプログラマブルシェーダーユニットとして動作する上、GPGPUとしてベクトル演算を行ったり、行列演算をベクトル演算に分解して実践させたりもできる。
そのため、両社の製品は「仮想GPU」として使われたり、ベクトル演算や任意サイズの行列演算を実行させることで、AIの学習フェーズにおけるHPCサーバとして使ったりと、活用できる幅が広い。さらに近年のGPUは内部に独立した「推論アクセラレーター」を搭載していることもあるので、AIの推論フェーズにも活用しやすくなった。
「ではGaudiはどうか?」というと、先述の通り3Dグラフィックスの描画に必要な機能を一切搭載していない。ゆえに「ベクトル演算はTPCで、行列演算はMMEで」という、演算内容に合わせて演算器を使い分けるアーキテクチャを実現できたわけである。
「用途に合わせて演算器を変える」ということは、演算の実効速度面では間違いなくプラスになる。しかし、TPCとMMEの両方で高い稼働率をキープするのは難しいかもしれない。稼働率を重視するなら、状況に応じてベクトル演算器をほぼ全て動員できるGPGPUの方が無駄が少ない。
ただし、GPGPUはその分だけ、データの移動や集約により多くの時間を割かなければならない。特定の条件下では、Gaudi 3を始めとするGaudiシリーズのアーキテクチャの方が有利になるだろう。
1ドル当たりのパフォーマンスを比較すると、Gaudi 3はNVIDIA H100の約2倍(!)となるという。本文にもある通り、Gaudi 3のアーキテクチャに合致したワークロードで使うと、コストパフォーマンスは一層高まる繰り返しだが、GaudiシリーズはGPUとしてのグラフィックス機能を備えない。しかし、Gaudi 3には動画のデコードを行う「メディアエンジン」は搭載されている。これは、AIの学習/推論フェーズにおいて、さまざまなメディアを扱う必要があることに備えた配慮だ。
平たくいえば、メディアエンジンは「映像プロセッサ」「映像DSP」に相当する。Gaudi 3では、中核ダイ1基当たり7基(合計14基)が搭載されている。対応コーデックはVP9(8K解像度まで)/H.265(8K解像度まで)/H.264(4K解像度まで)となり、8K解像度までのJPEG画像デコードも対応している。詳細は不明だが、基本的なオーディオフォーマットのデコードも可能と思われる。
なお、動画や音声の圧縮を行う「エンコード」機能は備えていない。
ちなみに、NVIDIA H100もメディアエンジンを搭載している。性能的にはGaudi 3のものとほぼ同等で、デコーダーのみでエンコーダーは備えないことも同様だ。
Gaudi 3のメディアエンジンには「ポストプロセス機能」も搭載されている。映像/画像に対する「解像度変換」の他、「パースペクティブ加工対応の回転/拡大/縮小」などをハードウェアベースで行える。これもAI処理に必要という判断で搭載された機能のようだ。
一方、NVIDIA H100は“GPU”なので、これらの処理をGPU的なアプローチで実装できる。そのため、Gaudi 3のようなポストプロセス機能は“あえて”搭載していない。
Intelの最新AIアクセラレーター「Intel Gaudi 3」は2024年第3四半期から本格出荷 一部OEMには先行出荷
リブランドした「Intel Xeon 6」はどんなCPU? Intelの解説から分かったことを改めてチェック
Xeon 6にLunar Lake 全方位で競合をリードする、信用のブランドがIntelだ――基調講演でパット・ゲルシンガーCEOが語ったこと
次世代CPU「Lunar Lake」でIntelが目指す“AI PC”とは? 驚くべき進化点と見える弱点、その克服法
AMDが新型GPUアクセラレータ「Instinct MI300シリーズ」の詳細を発表 「NVIDIA H100」よりも強い?Copyright © ITmedia, Inc. All Rights Reserved.