プロナビ

次世代CPU「Lunar Lake」でIntelが目指す“AI PC”とは? 驚くべき進化点と見える弱点、その克服法(3/4 ページ)

» 2024年06月04日 12時00分 公開
[西川善司ITmedia]

新GPUコアは「Xe2」(開発コード名:Battle Mage)

 Lunar Lakeでは、内蔵GPUコアが「Xe2」(開発コード名:Battlemage)に刷新される。先のAlchemist(開発コード名)世代では、独立GPUである「Intel Arc A-Series Graphics」(Xe-HPG)と、Core Ultraプロセッサ(シリーズ1)に統合された「Intel Arc Graphics」(Xe-LPG)の2種類が存在していたが、Intelによると、Battlemageでは単に「Xe2」と呼称するという。

Xe2 Lunar LakeのGPUコアはComputeタイル内に配備される。名称は「Xe2」とシンプルなものになる

 GPUコアに関する詳報も別の記事で取り上げる予定だが、「そんなこと言わないで……」という声もあると思うので、この記事でも概要を紹介する。

 Lunar Lakeに内蔵されたXe2は、簡単にいうと「細かいチューニングを施した、Xe-HPGの改良版」となる。Xeコア(グラフィックスエンジン)は、Xe-LPGと同じく最大8基だ。

 一番の改良ポイントは、ベクトル演算を担う「XVE(Xe Vector Engine)」のSIMD(Single Instruction/Multiple Data:並列処理を行う際の手法の1つ)の実行レーン数が8レーン(SIMD8)から16レーン(SIMD16)に倍増した点にある。

 ただし、Xeコア1基当たりのXVEの数は、先代から半減している(16基→8基)。そのため、演算器の総数は以下の通り変わらない。

  • 先代(Alchemist)のXVE:SIMD8×16=128基
  • BattlemageのXVE:SIMD16×8=128基

 この変更は、XVEに関する設計方針を変えたことを意味する。簡単にいうと処理できるスレッド数を半分に下げる代わりに、一度にこなせる演算の密度を増やしたということだ。具体的なグラフィックス処理系で例えると、「たくさんのシェーダープログラムを動かす」ことよりも、「複雑なシェーダープログラムを短時間で終える」ことを優先するようになったともいえる。

 読者の皆さんの中には「SIMD8からSIMD16の変更って、意味あるの?」と疑問に思う向きもあるだろうが、実際はアプリ側の“流行”に合わせて演算処理のトレンドが変わることも珍しくない。

 例えばAMDのRadeonシリーズは、「GCN(Graphics Core Next)アーキテクチャ」の時代はネイティブSIMD16演算を行っていた。しかし「RDNAアーキテクチャ」以降では、ネイティブSIMD32演算に切り替わっている。NVIDIAのGeForceシリーズはSIMDを拡張した「SIMT(Single Instructon/Multiple Threads)」を32スレッドで演算している(SIMT32)。

 SIMDであれSIMTであれ、昨今のGPUコアは並行演算のレーン数を増強する方向で設計するトレンドとなっている。これはGPUを高速演算器として利用する「GPGPU」との相性も良いので、Xe2も流れに乗っかったということだろう。

 また、Lunar LakeのGPUコアではさり気なく推論アクセラレータ「XMX(Xe Matrix Engine)」が復活している。ただし、そのまま復活したのではなく、XVEと同様に演算レーンの数を2倍に増やした上で、演算器の数を半減している。レーン数の増と演算器の減が“相殺”しているため、ピーク時の性能は同じと見てよいだろう。対応する演算精度については、FP16(16bit浮動小数点)、BF16、INT8(8bit整数)、INT4(4bit整数)、INT2(2bit整数)と変わっていない。

Xe2のブロックダイヤグラム Xe2のブロックダイヤグラム

 今回のイベントでの説明によると、INT8演算時におけるXe2の理論性能値は、XVEによるDP4a演算と、XMXによる演算の合算で67TOPS(1秒当たり67兆回)とされている。ここからGPUコアの動作クロックを逆算してみよう。

 繰り返しだが、Xeコアには1基あたり8基のXVEが備わっている。そのINT8(DP4a)の1クロックあたりの演算性能は「1024OPS(1秒当たり1024回)」となる。同様にXeコアには1基あたり8基のXMXがあり、そのクロックあたりのINT8演算性能は「4096OPS(1秒当たり4096回)」となる。ここから稼働クロックを計算すると、結果は以下の通りだ。

67TOPS÷(1024×8+4096×8基)≒1.636GHz

 Lunar LakeのGPUコアは、ピーク時で約1.636GHzで駆動していると推察される。

 この結果を逆算して、グラフィックス処理能力の理論性能値を計算してみると、以下の通りとなる。

8 (Xeコアの数)×8(XVEの数)×16(SIMD16演算)×2FLOPS(積和算)×動作クロック(MHz換算)=3.35TFLOPS

 計算上、プレイステーション4のGPUコアのピーク性能(1.84TFLOPS)の約1.8倍だ。定格消費電力が15WクラスのCPUに内蔵されたGPUとして見れば、かなり立派な性能値ではある。

 Core Ultraプロセッサ(シリーズ1)のUシリーズに搭載されているIntel Graphicsでは、ピーク時でも2TFLOPS程度だった。そのことを考えると、大した性能向上率だ。

理論性能値 Intelが示したLunar Lakeの理論性能値。「CPU全体で100TOPS超え」をうたっていたが、NPUで最大48TOPS、GPUで最大67TOPS、そしてCPUで最大5TOPSで、合わせて最大120TOPSの性能になるという

 一方、メディアエンジンやディスプレイ出力回りは、時代に合わせて順当に進化している。

 メディアエンジンはAV1のエンコード/デコードに加え、新世代コーデック「H.266(VCC)」のデコードにも対応する。これは業界最速だという。

 最近のIntelのメディアエンジンは、AMDやNVIDIAよりも最新技術への対応が早い。振り返ると、今では当たり前となったAV1コーデックのハードウェアデコードも、最初はAlchemistアーキテクチャのGPUだった。

映像回り メディアエンジン、ディスプレイエンジンとIPU(イメージングプロセッサ)もComputeタイルに統合されている。映像出力は最大で3画面まで可能で、HDMI 2.1、DisplayPort 2.1とeDP(Embedded DisplayPort) 1.5に対応する。メディアエンジンのVVCデコード対応も注目ポイントだ
F1 2024のデモンストレーション Lunar Lakeを搭載したテストシステムで動作させた「F1 2024」の映像。グラフィックス設定を全て「HIGH」で設定した上で、960×540ピクセルで描画して、超解像技術「Xe Super Sampling(XeSS)」でフルHD(1920×1080ピクセル)にアップスケールして表示するデモンストレーションだが、フレームレートは60fpsをきちんと維持できている

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年02月13日 更新
  1. 6500円でデスクに新風! Thermalrightの小型液晶がヒット、背景にメモリ高騰? (2026年02月09日)
  2. ワコムが安い? 驚きの2025年を振り返り メモリ高騰におびえる2026年の「自作PC冬眠」と「次世代CPU」への期待 (2026年02月12日)
  3. キンタロー。も驚くほぼ「入力ゼロ」の“次世代”確定申告 2026年の弥生は3つのAI活用とデスクトップ製品強化を両輪に (2026年02月12日)
  4. 元Appleのジョナサン・アイブが手掛けるフェラーリ初EVの内装デザイン公開 物理ボタンとデジタルの融合 (2026年02月10日)
  5. 新ARグラス「XREAL 1S」を試す 解像度と輝度が向上、BOSEサウンドで没入感アップ “3D変換”も大きな魅力 (2026年02月10日)
  6. マウス社長が3日間“フル参戦”した理由とは? 大阪・梅田のど真ん中で起きた“eスポーツ×地域振興”の化学反応 (2026年02月11日)
  7. アイ・オー、拡張ドック機能を備えたType-C接続対応の27型4K液晶ディスプレイ (2026年02月12日)
  8. ASRock、“CPU起動トラブルを解決”するSocket AM5マザー用のβ版BIOSを公開 (2026年02月10日)
  9. 「雲」から降りてきたAIは「パーソナル」な存在になれるのか――開催から1カ月経過した「CES 2026」を振り返る (2026年02月12日)
  10. ソニーが「Blu-ray Discレコーダー」の出荷と開発を終了 代替の録画手段はある? (2026年02月09日)
最新トピックスPR

過去記事カレンダー

2026年