検索
コラム

次世代CPU「Lunar Lake」でIntelが目指す“AI PC”とは? 驚くべき進化点と見える弱点、その克服法(3/4 ページ)

COMPUTEX TAIPEI 2024に先立って、Intelが今後発売される予定のCPUに関する技術説明会を開催した。この記事では、2024年第4四半期に登場する予定のモバイル向けCPU「Lunar Lake」(開発コード名)の技術的概要を紹介する。

Share
Tweet
LINE
Hatena

新GPUコアは「Xe2」(開発コード名:Battle Mage)

 Lunar Lakeでは、内蔵GPUコアが「Xe2」(開発コード名:Battlemage)に刷新される。先のAlchemist(開発コード名)世代では、独立GPUである「Intel Arc A-Series Graphics」(Xe-HPG)と、Core Ultraプロセッサ(シリーズ1)に統合された「Intel Arc Graphics」(Xe-LPG)の2種類が存在していたが、Intelによると、Battlemageでは単に「Xe2」と呼称するという。

Xe2
Lunar LakeのGPUコアはComputeタイル内に配備される。名称は「Xe2」とシンプルなものになる

 GPUコアに関する詳報も別の記事で取り上げる予定だが、「そんなこと言わないで……」という声もあると思うので、この記事でも概要を紹介する。

 Lunar Lakeに内蔵されたXe2は、簡単にいうと「細かいチューニングを施した、Xe-HPGの改良版」となる。Xeコア(グラフィックスエンジン)は、Xe-LPGと同じく最大8基だ。

 一番の改良ポイントは、ベクトル演算を担う「XVE(Xe Vector Engine)」のSIMD(Single Instruction/Multiple Data:並列処理を行う際の手法の1つ)の実行レーン数が8レーン(SIMD8)から16レーン(SIMD16)に倍増した点にある。

 ただし、Xeコア1基当たりのXVEの数は、先代から半減している(16基→8基)。そのため、演算器の総数は以下の通り変わらない。

  • 先代(Alchemist)のXVE:SIMD8×16=128基
  • BattlemageのXVE:SIMD16×8=128基

 この変更は、XVEに関する設計方針を変えたことを意味する。簡単にいうと処理できるスレッド数を半分に下げる代わりに、一度にこなせる演算の密度を増やしたということだ。具体的なグラフィックス処理系で例えると、「たくさんのシェーダープログラムを動かす」ことよりも、「複雑なシェーダープログラムを短時間で終える」ことを優先するようになったともいえる。

 読者の皆さんの中には「SIMD8からSIMD16の変更って、意味あるの?」と疑問に思う向きもあるだろうが、実際はアプリ側の“流行”に合わせて演算処理のトレンドが変わることも珍しくない。

 例えばAMDのRadeonシリーズは、「GCN(Graphics Core Next)アーキテクチャ」の時代はネイティブSIMD16演算を行っていた。しかし「RDNAアーキテクチャ」以降では、ネイティブSIMD32演算に切り替わっている。NVIDIAのGeForceシリーズはSIMDを拡張した「SIMT(Single Instructon/Multiple Threads)」を32スレッドで演算している(SIMT32)。

 SIMDであれSIMTであれ、昨今のGPUコアは並行演算のレーン数を増強する方向で設計するトレンドとなっている。これはGPUを高速演算器として利用する「GPGPU」との相性も良いので、Xe2も流れに乗っかったということだろう。

 また、Lunar LakeのGPUコアではさり気なく推論アクセラレータ「XMX(Xe Matrix Engine)」が復活している。ただし、そのまま復活したのではなく、XVEと同様に演算レーンの数を2倍に増やした上で、演算器の数を半減している。レーン数の増と演算器の減が“相殺”しているため、ピーク時の性能は同じと見てよいだろう。対応する演算精度については、FP16(16bit浮動小数点)、BF16、INT8(8bit整数)、INT4(4bit整数)、INT2(2bit整数)と変わっていない。

Xe2のブロックダイヤグラム
Xe2のブロックダイヤグラム

 今回のイベントでの説明によると、INT8演算時におけるXe2の理論性能値は、XVEによるDP4a演算と、XMXによる演算の合算で67TOPS(1秒当たり67兆回)とされている。ここからGPUコアの動作クロックを逆算してみよう。

 繰り返しだが、Xeコアには1基あたり8基のXVEが備わっている。そのINT8(DP4a)の1クロックあたりの演算性能は「1024OPS(1秒当たり1024回)」となる。同様にXeコアには1基あたり8基のXMXがあり、そのクロックあたりのINT8演算性能は「4096OPS(1秒当たり4096回)」となる。ここから稼働クロックを計算すると、結果は以下の通りだ。

67TOPS÷(1024×8+4096×8基)≒1.636GHz

 Lunar LakeのGPUコアは、ピーク時で約1.636GHzで駆動していると推察される。

 この結果を逆算して、グラフィックス処理能力の理論性能値を計算してみると、以下の通りとなる。

8 (Xeコアの数)×8(XVEの数)×16(SIMD16演算)×2FLOPS(積和算)×動作クロック(MHz換算)=3.35TFLOPS

 計算上、プレイステーション4のGPUコアのピーク性能(1.84TFLOPS)の約1.8倍だ。定格消費電力が15WクラスのCPUに内蔵されたGPUとして見れば、かなり立派な性能値ではある。

 Core Ultraプロセッサ(シリーズ1)のUシリーズに搭載されているIntel Graphicsでは、ピーク時でも2TFLOPS程度だった。そのことを考えると、大した性能向上率だ。

理論性能値
Intelが示したLunar Lakeの理論性能値。「CPU全体で100TOPS超え」をうたっていたが、NPUで最大48TOPS、GPUで最大67TOPS、そしてCPUで最大5TOPSで、合わせて最大120TOPSの性能になるという

 一方、メディアエンジンやディスプレイ出力回りは、時代に合わせて順当に進化している。

 メディアエンジンはAV1のエンコード/デコードに加え、新世代コーデック「H.266(VCC)」のデコードにも対応する。これは業界最速だという。

 最近のIntelのメディアエンジンは、AMDやNVIDIAよりも最新技術への対応が早い。振り返ると、今では当たり前となったAV1コーデックのハードウェアデコードも、最初はAlchemistアーキテクチャのGPUだった。

映像回り
メディアエンジン、ディスプレイエンジンとIPU(イメージングプロセッサ)もComputeタイルに統合されている。映像出力は最大で3画面まで可能で、HDMI 2.1、DisplayPort 2.1とeDP(Embedded DisplayPort) 1.5に対応する。メディアエンジンのVVCデコード対応も注目ポイントだ
F1 2024のデモンストレーション
Lunar Lakeを搭載したテストシステムで動作させた「F1 2024」の映像。グラフィックス設定を全て「HIGH」で設定した上で、960×540ピクセルで描画して、超解像技術「Xe Super Sampling(XeSS)」でフルHD(1920×1080ピクセル)にアップスケールして表示するデモンストレーションだが、フレームレートは60fpsをきちんと維持できている

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る