コラム

2025年11月19日

Core Ultraプロセッサ（シリーズ3）の「Xe3 GPU」の改良点をさらに深掘り　今後の取り組みもチェック！（1/5 ページ）

Intelが2025年末に一部を出荷する予定の「Core Ultraプロセッサ（シリーズ3）」（開発コード名：Panther Lake）は、「Xe3 GPU」なる新しいGPUコアを搭載する。この記事では演算エンジン回りを中心に、Xe3 GPUをもう少し深掘りしていく。

[西川善司，ITmedia]

　Intelが2025年末に一部をリリースする予定の「Core Ultraプロセッサ（シリーズ3）」（開発コード名：Panther Lake）には「X^e3 GPU」と呼ばれる新型GPUコア（GPUタイル）が搭載される。前回はこのGPUの概要と、大まかなパフォーマンスを紹介した。

→前編はこちら

　後編となる本記事では、X^e3 GPUの演算器について“深掘り”すると共に、同GPUの付帯機能について紹介していく。

GPUコアに関するセッションの説明を担当した、Intelのトーマス・ピーターセン氏（アーキテクチャ／グラフィックス／ソフトウェア担当フェロー）。NVIDIAでGPUのテクニカルマーケティングを担当していた経歴を持つ（写真提供：Intel）

X^e3 GPUのXVEを深掘り

　続いて、X^e3 GPUのシェーダープロセッサたる「Xe Vector Engine（XVE）」について深掘りしてみよう。

　X^e3 GPUのXeコアは「第3世代」を称しているが、前編でも触れた通り基本設計はIntel Arc BシリーズやCore Ultra 200Vプロセッサ用内蔵GPUとして採用された「X^e2 GPU（開発コード名：Battlemage）」を色濃く受け継いでいる。というか、ほぼBattlemageのままだ。

　下図で示した通り、X^eコア1基当たりの演算器は128基構成のままとなっている。

X^e3 GPUのX^eコアにおけるXVEの構成。図中の「+33% L1$/SLM」は何を意味するのか……？

L1キャッシュ／SLMの容量は33％増し

　X^e3 GPUのSIMD16演算ユニットにおける単位演算器は、初代「X^eアーキテクチャ」から変わらず32bit浮動小数点演算器のままとなっている。1基のXVEは、512bitのベクトル演算器（32bit×16レーンSIMD）ということになる。

　ここで気になるのは、上図の「+33% L1$/SLM」という記述。これはどういう意味なのだろうか。

　「L1$」はL1キャッシュを意味する（Intelはキャッシュを「$」と表記することが多い）。「SLM」は「Shared Local Memory（共有ローカルメモリ）」だ。SLMは、同一のX^eコア内にあるXVEがリニアなアドレス空間を通してアクセスできる汎用（はんよう）的なSRAM領域だ。

　L1キャッシュ／SLMの容量は「X^e2アーキテクチャ」では192KBだったものが、今回は「+33％」増量されて256KBとなった。ということで、図中の「+33％」は容量の増加を意味する。

　実際の動作では、X^eコア単位で稼働する「カーネル実行」の際に、カーネルが指定した割合でL1キャッシュとSLMの容量が定義される。Intelによると、SLMにより多くの容量を割り当てることが多いとのことだ。

　L1キャッシュの増量は、プログラム実行速度の向上に直結する。一方でSLMの増量については、「Compute Shader（コンピュートシェーダー）」などで“明示的に”活用しない限りパフォーマンス向上には結び付かない。「Mesh Shader（メッシュシェーダー）」の動作の仕組みはCompute Shaderに近いので、SLMの増量がパフォーマンス向上に結びつくかもしれない（ゲーム側のシェーダーコードがSLMサイズの可変に対応している場合に限られるが）。

　なお、L1キャッシュ／SLMの256KBという容量には「L1命令キャッシュ（L1I$）」は含まれていない。今回、L1I$の増量については言及がなかったので、X^e2アーキテクチャと同じ96KBだと思われる。

基本設計は変わらずも、処理できるスレッド数は増加

　X^e3 GPUにおけるXVEのブロックダイアグラムを見てみると、図中に「SIMD16 Native ALUs」「3way Co-issue」「Extended math＆FP64」「Xe Matrix Extensions」という記載が見られるが、これらは全てX^e2アーキテクチャの仕様を受け継いでおり、大枠として変化はない。

X^e3 GPUのXVEのブロックダイアグラム

　ダイアグラムを見れば分かる通り、3way Co-issue（3ウェイ同時発行）は「浮動小数点演算（FP64含む）」「整数演算および超越関数演算（INT／Extended Math）」「XMX」の3種類の命令を同時発行することを意味する。

　そして上図左側の「Up to 25％ more Threads」「Variable Register Allocation」「FP8 Dequantization Support」の3点は、X^e3 GPUにおける拡張ポイントになる。

　Up to 25％ more Threadsは、XVEにおいて実行できるスレッド数が25％増えたことを意味する。具体的には、従来は1基当たり最大8スレッドだったものが10スレッドとなった。このことは、Variable Register Allocation（可変レジスター配置）と深く関係しているので詳細は後述する。

　Xe／Xe2アーキテクチャ、そしてX^e3 GPUでも、1基のXVEが持つ「汎用レジスタファイル（GRF）」は「512bit（64バイト）×1024本」あるので合計64KBとなっている。この点は各世代で変わりない。一方でXe／Xe2アーキテクチャでは、GRFを128本を割り当てて実行する「小規模スレッド」と、同じく256本を割り当てて実行する「大規模スレッド」の2種類しかない。となると、実行できる最大数は以下の通りとなる。

小規模スレッド：1024本÷128本＝8スレッド

大規模スレッド：1024本÷256本＝4スレッド

　小規模スレッドと大規模スレッドを混在実行する場合、XVE1基当たりの実行スレッド数は4～8ということになる。

　一方で、IntelによるとX^e3 GPUではGRFの数を32本の粒度で可変割り当てできるように改善したという。これが「Variable Register Allocation」だ。ハードウェア上、X^e3 GPUではXVE1基当たり最大10スレッドまで実行できるとのことなので、GRFを「32本／32スレッド（1024本÷32本=32スレッド）」あるいは「64本／16スレッド（1024本÷64本=16スレッド）」で割り当てるモードはないと思われる。

　ただし、IntelはGRFを「96本／10スレッド（1024本÷96本≒10スレッド）」で割り当てるモードが存在することは明言しており、これが「Up to 25％ more Threads」の言わんとするところだ。一応、計算式は以下の通りとなる。

1024本÷96本＝10スレッド（従来の小規模スレッドの25％増し）

　Intelは明言していないものの、計算上は「160本モード（6スレッド）」「192本モード（5スレッド）」「224本モード（4スレッド）」も存在する可能性がある。

FP8演算の変換機能をサポート

　最後の「FP8 Dequantization Support」は、メモリに格納されている8bit浮動小数点（FP8）形式の数値を上位の高精度演算形式に変換（Dequantization）するというものだ。具体的には、FP8を「BF16」「FP16」「FP32」といった16bitや32bitの浮動小数点形式に変換可能だ。

　また、X^e3 GPUではFP8演算において符号1bit／指数部4bit／仮数部3bitからなる「E4M3」形式（別名「HF8（Hybrid Float8）」形式）に初対応した。表現範囲は約±448なので、推論演算により向いているとされる。

　なお、FP8のもう1つの演算形式で、符号1bit／指数部5bit／仮数部2bitからなる「E5M2」形式（別名「BF8（Brain-Float8）」形式）については、X^e2アーキテクチャの段階で対応済みとなっている。こちらの表現範囲は±57344程度で、学習用途に適している。

推論アクセラレーターやレイトレユニットの性能はどうなった？

　　　　　　 | 次のページへ

Core Ultraプロセッサ（シリーズ3）の「Xe3 GPU」の全体像を解説　完全な新世代ではないものの用途に合わせた最適化がポイント
Intelが2025年末に一部を出荷する予定の「Core Ultraプロセッサ（シリーズ3）」（開発コード名：Panther Lake）は、「Xe3 GPU」なる新しいGPUコアを搭載する。この記事では、Xe3 GPUの概要をお伝えする。
Intelの新型CPU「Core Ultraプロセッサ（シリーズ3）」は何が変わった？　Lunar Lakeからの進化をチェック！
Intelが2025年末に出荷を開始する予定のPanther Lakeこと「Core Ultraプロセッサ（シリーズ3）」。その技術的特徴を数回に分けて解説する。今回は、全体的な概要を紹介する。
2025年末出荷開始予定の「Core Ultraプロセッサ（シリーズ3）」のCPUコア構造を“深掘り”
Intelが2025年末に一部モデルを出荷する予定の「Core Ultraプロセッサ（シリーズ3）」（開発コード名：Panther Lake）だが、CPUコアを改良しているという。どう改良されているのか、解説しよう。
Intelの「Core Ultraプロセッサ（シリーズ3）」は2025年末に一部出荷　2026年1月にはラインアップを拡充
Intelが、「Panther Lake」という開発コード名で開発を進めていたCPUを新しいCore Ultraプロセッサとして発売することになった。2025年内に大量生産を開始し、同年末に一部製品の出荷を開始する見通しだ。2026年1月には、より広範な製品を集荷するという。
Intelが次世代CPU「Panther Lake」を“チラ見せ”　製品は2026年初頭に発売予定
Intelが「Core Ultraプロセッサ（シリーズ2）」の次に投入する予定のCPU「Panter Lake」のデモンストレーションを行った。量産は2025年後半から始まる予定で、搭載製品は2025年初頭に発売される見通しだ。

Core Ultraプロセッサ（シリーズ3）の「Xe3 GPU」の改良点をさらに深掘り　今後の取り組みもチェック！（1/5 ページ）

X^e3 GPUのXVEを深掘り

L1キャッシュ／SLMの容量は33％増し

基本設計は変わらずも、処理できるスレッド数は増加

FP8演算の変換機能をサポート

関連記事

記事ランキング

Core Ultraプロセッサ（シリーズ3）の「Xe3 GPU」の改良点をさらに深掘り 今後の取り組みもチェック！（1/5 ページ）

Xe3 GPUのXVEを深掘り

L1キャッシュ／SLMの容量は33％増し

基本設計は変わらずも、処理できるスレッド数は増加

FP8演算の変換機能をサポート

関連記事

記事ランキング

Core Ultraプロセッサ（シリーズ3）の「Xe3 GPU」の改良点をさらに深掘り　今後の取り組みもチェック！（1/5 ページ）

X^e3 GPUのXVEを深掘り