プロナビ

次世代CPU「Lunar Lake」でIntelが目指す“AI PC”とは? 驚くべき進化点と見える弱点、その克服法(3/4 ページ)

» 2024年06月04日 12時00分 公開
[西川善司ITmedia]

新GPUコアは「Xe2」(開発コード名:Battle Mage)

 Lunar Lakeでは、内蔵GPUコアが「Xe2」(開発コード名:Battlemage)に刷新される。先のAlchemist(開発コード名)世代では、独立GPUである「Intel Arc A-Series Graphics」(Xe-HPG)と、Core Ultraプロセッサ(シリーズ1)に統合された「Intel Arc Graphics」(Xe-LPG)の2種類が存在していたが、Intelによると、Battlemageでは単に「Xe2」と呼称するという。

Xe2 Lunar LakeのGPUコアはComputeタイル内に配備される。名称は「Xe2」とシンプルなものになる

 GPUコアに関する詳報も別の記事で取り上げる予定だが、「そんなこと言わないで……」という声もあると思うので、この記事でも概要を紹介する。

 Lunar Lakeに内蔵されたXe2は、簡単にいうと「細かいチューニングを施した、Xe-HPGの改良版」となる。Xeコア(グラフィックスエンジン)は、Xe-LPGと同じく最大8基だ。

 一番の改良ポイントは、ベクトル演算を担う「XVE(Xe Vector Engine)」のSIMD(Single Instruction/Multiple Data:並列処理を行う際の手法の1つ)の実行レーン数が8レーン(SIMD8)から16レーン(SIMD16)に倍増した点にある。

 ただし、Xeコア1基当たりのXVEの数は、先代から半減している(16基→8基)。そのため、演算器の総数は以下の通り変わらない。

  • 先代(Alchemist)のXVE:SIMD8×16=128基
  • BattlemageのXVE:SIMD16×8=128基

 この変更は、XVEに関する設計方針を変えたことを意味する。簡単にいうと処理できるスレッド数を半分に下げる代わりに、一度にこなせる演算の密度を増やしたということだ。具体的なグラフィックス処理系で例えると、「たくさんのシェーダープログラムを動かす」ことよりも、「複雑なシェーダープログラムを短時間で終える」ことを優先するようになったともいえる。

 読者の皆さんの中には「SIMD8からSIMD16の変更って、意味あるの?」と疑問に思う向きもあるだろうが、実際はアプリ側の“流行”に合わせて演算処理のトレンドが変わることも珍しくない。

 例えばAMDのRadeonシリーズは、「GCN(Graphics Core Next)アーキテクチャ」の時代はネイティブSIMD16演算を行っていた。しかし「RDNAアーキテクチャ」以降では、ネイティブSIMD32演算に切り替わっている。NVIDIAのGeForceシリーズはSIMDを拡張した「SIMT(Single Instructon/Multiple Threads)」を32スレッドで演算している(SIMT32)。

 SIMDであれSIMTであれ、昨今のGPUコアは並行演算のレーン数を増強する方向で設計するトレンドとなっている。これはGPUを高速演算器として利用する「GPGPU」との相性も良いので、Xe2も流れに乗っかったということだろう。

 また、Lunar LakeのGPUコアではさり気なく推論アクセラレータ「XMX(Xe Matrix Engine)」が復活している。ただし、そのまま復活したのではなく、XVEと同様に演算レーンの数を2倍に増やした上で、演算器の数を半減している。レーン数の増と演算器の減が“相殺”しているため、ピーク時の性能は同じと見てよいだろう。対応する演算精度については、FP16(16bit浮動小数点)、BF16、INT8(8bit整数)、INT4(4bit整数)、INT2(2bit整数)と変わっていない。

Xe2のブロックダイヤグラム Xe2のブロックダイヤグラム

 今回のイベントでの説明によると、INT8演算時におけるXe2の理論性能値は、XVEによるDP4a演算と、XMXによる演算の合算で67TOPS(1秒当たり67兆回)とされている。ここからGPUコアの動作クロックを逆算してみよう。

 繰り返しだが、Xeコアには1基あたり8基のXVEが備わっている。そのINT8(DP4a)の1クロックあたりの演算性能は「1024OPS(1秒当たり1024回)」となる。同様にXeコアには1基あたり8基のXMXがあり、そのクロックあたりのINT8演算性能は「4096OPS(1秒当たり4096回)」となる。ここから稼働クロックを計算すると、結果は以下の通りだ。

67TOPS÷(1024×8+4096×8基)≒1.636GHz

 Lunar LakeのGPUコアは、ピーク時で約1.636GHzで駆動していると推察される。

 この結果を逆算して、グラフィックス処理能力の理論性能値を計算してみると、以下の通りとなる。

8 (Xeコアの数)×8(XVEの数)×16(SIMD16演算)×2FLOPS(積和算)×動作クロック(MHz換算)=3.35TFLOPS

 計算上、プレイステーション4のGPUコアのピーク性能(1.84TFLOPS)の約1.8倍だ。定格消費電力が15WクラスのCPUに内蔵されたGPUとして見れば、かなり立派な性能値ではある。

 Core Ultraプロセッサ(シリーズ1)のUシリーズに搭載されているIntel Graphicsでは、ピーク時でも2TFLOPS程度だった。そのことを考えると、大した性能向上率だ。

理論性能値 Intelが示したLunar Lakeの理論性能値。「CPU全体で100TOPS超え」をうたっていたが、NPUで最大48TOPS、GPUで最大67TOPS、そしてCPUで最大5TOPSで、合わせて最大120TOPSの性能になるという

 一方、メディアエンジンやディスプレイ出力回りは、時代に合わせて順当に進化している。

 メディアエンジンはAV1のエンコード/デコードに加え、新世代コーデック「H.266(VCC)」のデコードにも対応する。これは業界最速だという。

 最近のIntelのメディアエンジンは、AMDやNVIDIAよりも最新技術への対応が早い。振り返ると、今では当たり前となったAV1コーデックのハードウェアデコードも、最初はAlchemistアーキテクチャのGPUだった。

映像回り メディアエンジン、ディスプレイエンジンとIPU(イメージングプロセッサ)もComputeタイルに統合されている。映像出力は最大で3画面まで可能で、HDMI 2.1、DisplayPort 2.1とeDP(Embedded DisplayPort) 1.5に対応する。メディアエンジンのVVCデコード対応も注目ポイントだ
F1 2024のデモンストレーション Lunar Lakeを搭載したテストシステムで動作させた「F1 2024」の映像。グラフィックス設定を全て「HIGH」で設定した上で、960×540ピクセルで描画して、超解像技術「Xe Super Sampling(XeSS)」でフルHD(1920×1080ピクセル)にアップスケールして表示するデモンストレーションだが、フレームレートは60fpsをきちんと維持できている

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年03月12日 更新
  1. 10万円切りMacが17年ぶりに復活! 実機を試して分かったAppleが仕掛ける「MacBook Neo」の実力 (2026年03月10日)
  2. きょう発売の「MacBook Neo」、もうAmazonで割安に (2026年03月11日)
  3. 「MacBook Neo」を試して分かった10万円切りの衝撃! ただの“安いMac”ではなく絶妙な引き算で生まれた1台 (2026年03月10日)
  4. セールで買った日本HPの約990gノートPC「Pavilion Aero 13-bg」が想像以上に良かったので紹介したい (2026年03月11日)
  5. 新型「MacBook Air」はM5搭載で何が変わった? 同じM5の「14インチMacBook Pro」と比べて分かったこと (2026年03月10日)
  6. リュック1つで展示会セミナーの音響セット構築レポ 現場で得た“2.4GHz帯混信地獄”を生き抜く教訓 (2026年03月11日)
  7. 12機能を凝縮したモニタースタンド型の「Anker 675 USB-C ドッキングステーション」が27%オフの2万3990円に (2026年03月11日)
  8. 最新Core Ultra X7 358Hの破壊力! 16型OLED搭載で内蔵GPUがディスクリート超え!? Copilot+ PC「Acer Swift 16 AI」レビュー (2026年03月10日)
  9. 出張や通勤で荷物が増えても安心な「ミレー ビジネスリュック EXP NX 20+」が27%オフの1万3865円に (2026年03月10日)
  10. 「iPhone 17e」実機レビュー! 9万9800円で256GB&MagSafe対応 ベーシックモデルの魅力と割り切り (2026年03月09日)
最新トピックスPR

過去記事カレンダー

2026年