次世代CPU「Lunar Lake」でIntelが目指す“AI PC”とは? 驚くべき進化点と見える弱点、その克服法(3/4 ページ)
COMPUTEX TAIPEI 2024に先立って、Intelが今後発売される予定のCPUに関する技術説明会を開催した。この記事では、2024年第4四半期に登場する予定のモバイル向けCPU「Lunar Lake」(開発コード名)の技術的概要を紹介する。
新GPUコアは「Xe2」(開発コード名:Battle Mage)
Lunar Lakeでは、内蔵GPUコアが「Xe2」(開発コード名:Battlemage)に刷新される。先のAlchemist(開発コード名)世代では、独立GPUである「Intel Arc A-Series Graphics」(Xe-HPG)と、Core Ultraプロセッサ(シリーズ1)に統合された「Intel Arc Graphics」(Xe-LPG)の2種類が存在していたが、Intelによると、Battlemageでは単に「Xe2」と呼称するという。
GPUコアに関する詳報も別の記事で取り上げる予定だが、「そんなこと言わないで……」という声もあると思うので、この記事でも概要を紹介する。
Lunar Lakeに内蔵されたXe2は、簡単にいうと「細かいチューニングを施した、Xe-HPGの改良版」となる。Xeコア(グラフィックスエンジン)は、Xe-LPGと同じく最大8基だ。
一番の改良ポイントは、ベクトル演算を担う「XVE(Xe Vector Engine)」のSIMD(Single Instruction/Multiple Data:並列処理を行う際の手法の1つ)の実行レーン数が8レーン(SIMD8)から16レーン(SIMD16)に倍増した点にある。
ただし、Xeコア1基当たりのXVEの数は、先代から半減している(16基→8基)。そのため、演算器の総数は以下の通り変わらない。
- 先代(Alchemist)のXVE:SIMD8×16=128基
- BattlemageのXVE:SIMD16×8=128基
この変更は、XVEに関する設計方針を変えたことを意味する。簡単にいうと処理できるスレッド数を半分に下げる代わりに、一度にこなせる演算の密度を増やしたということだ。具体的なグラフィックス処理系で例えると、「たくさんのシェーダープログラムを動かす」ことよりも、「複雑なシェーダープログラムを短時間で終える」ことを優先するようになったともいえる。
読者の皆さんの中には「SIMD8からSIMD16の変更って、意味あるの?」と疑問に思う向きもあるだろうが、実際はアプリ側の“流行”に合わせて演算処理のトレンドが変わることも珍しくない。
例えばAMDのRadeonシリーズは、「GCN(Graphics Core Next)アーキテクチャ」の時代はネイティブSIMD16演算を行っていた。しかし「RDNAアーキテクチャ」以降では、ネイティブSIMD32演算に切り替わっている。NVIDIAのGeForceシリーズはSIMDを拡張した「SIMT(Single Instructon/Multiple Threads)」を32スレッドで演算している(SIMT32)。
SIMDであれSIMTであれ、昨今のGPUコアは並行演算のレーン数を増強する方向で設計するトレンドとなっている。これはGPUを高速演算器として利用する「GPGPU」との相性も良いので、Xe2も流れに乗っかったということだろう。
また、Lunar LakeのGPUコアではさり気なく推論アクセラレータ「XMX(Xe Matrix Engine)」が復活している。ただし、そのまま復活したのではなく、XVEと同様に演算レーンの数を2倍に増やした上で、演算器の数を半減している。レーン数の増と演算器の減が“相殺”しているため、ピーク時の性能は同じと見てよいだろう。対応する演算精度については、FP16(16bit浮動小数点)、BF16、INT8(8bit整数)、INT4(4bit整数)、INT2(2bit整数)と変わっていない。
今回のイベントでの説明によると、INT8演算時におけるXe2の理論性能値は、XVEによるDP4a演算と、XMXによる演算の合算で67TOPS(1秒当たり67兆回)とされている。ここからGPUコアの動作クロックを逆算してみよう。
繰り返しだが、Xeコアには1基あたり8基のXVEが備わっている。そのINT8(DP4a)の1クロックあたりの演算性能は「1024OPS(1秒当たり1024回)」となる。同様にXeコアには1基あたり8基のXMXがあり、そのクロックあたりのINT8演算性能は「4096OPS(1秒当たり4096回)」となる。ここから稼働クロックを計算すると、結果は以下の通りだ。
67TOPS÷(1024×8+4096×8基)≒1.636GHz
Lunar LakeのGPUコアは、ピーク時で約1.636GHzで駆動していると推察される。
この結果を逆算して、グラフィックス処理能力の理論性能値を計算してみると、以下の通りとなる。
8 (Xeコアの数)×8(XVEの数)×16(SIMD16演算)×2FLOPS(積和算)×動作クロック(MHz換算)=3.35TFLOPS
計算上、プレイステーション4のGPUコアのピーク性能(1.84TFLOPS)の約1.8倍だ。定格消費電力が15WクラスのCPUに内蔵されたGPUとして見れば、かなり立派な性能値ではある。
Core Ultraプロセッサ(シリーズ1)のUシリーズに搭載されているIntel Graphicsでは、ピーク時でも2TFLOPS程度だった。そのことを考えると、大した性能向上率だ。
Intelが示したLunar Lakeの理論性能値。「CPU全体で100TOPS超え」をうたっていたが、NPUで最大48TOPS、GPUで最大67TOPS、そしてCPUで最大5TOPSで、合わせて最大120TOPSの性能になるという
一方、メディアエンジンやディスプレイ出力回りは、時代に合わせて順当に進化している。
メディアエンジンはAV1のエンコード/デコードに加え、新世代コーデック「H.266(VCC)」のデコードにも対応する。これは業界最速だという。
最近のIntelのメディアエンジンは、AMDやNVIDIAよりも最新技術への対応が早い。振り返ると、今では当たり前となったAV1コーデックのハードウェアデコードも、最初はAlchemistアーキテクチャのGPUだった。
メディアエンジン、ディスプレイエンジンとIPU(イメージングプロセッサ)もComputeタイルに統合されている。映像出力は最大で3画面まで可能で、HDMI 2.1、DisplayPort 2.1とeDP(Embedded DisplayPort) 1.5に対応する。メディアエンジンのVVCデコード対応も注目ポイントだ
Lunar Lakeを搭載したテストシステムで動作させた「F1 2024」の映像。グラフィックス設定を全て「HIGH」で設定した上で、960×540ピクセルで描画して、超解像技術「Xe Super Sampling(XeSS)」でフルHD(1920×1080ピクセル)にアップスケールして表示するデモンストレーションだが、フレームレートは60fpsをきちんと維持できている
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Intelのモバイル向け次世代CPU「Lunar Lake」は2024年第3四半期に登場 ライバルを超えるAI処理パフォーマンスを実現
Intelが、モバイル向け次世代CPU「Lunar Lake」の概要を発表した。2024年第3四半期に登場する予定で、ライバルCPU/SoCよりも高速なAIパフォーマンスを発揮できることが特徴だ。 - 「AI PC」がベールを脱ぐ! 次世代のモバイル向け「Core Ultraプロセッサ」正式発表 搭載ノートPCは順次発売
Intelが発表を予告していた「Core Ultraプロセッサ」が、ついに正式発表された。全てのモデルにAIプロセッサ(NPU)を搭載しており、NPUを利用できるアプリのパフォーマンスが大きく向上することが特徴だ。 - さよなら「i」 こんにちは「Ultra」――Intel Coreプロセッサが15年ぶりにリブランディング Meteor Lakeから適用
2023年後半に登場する新型CPU「Meteor Lake(開発コード名)」に合わせて、IntelがCoreプロセッサのリブランディングを実施する。モデル名に含まれる「i」を省く他、「第○世代」という表記を廃止することでブランドそのもののシンプル化を進める一方で、最先端モデルには新たに「Core Ultraプロセッサ」というブランドを導入するという。 - Intelが次世代CPU「Meteor Lake」の概要をチラ見せ 全モデルに「AIエンジン」を搭載
Intelが「Meteor Lake(メテオレイク)」というコード名で開発を進めているCPUの概要情報を公開した。同社初の7nmプロセスCPUは、全モデルにCPUコアとは別体の「AIエンジン」を搭載するという。 - 2025年までに「1.8nm相当」に――Intelが半導体生産のロードマップを説明
Intelが半導体生産のロードマップを説明するイベントを開催した。2022年には7nmプロセスの製品が、2024年には新技術を取り入れた製品が登場する見通しだ。