Nehalemの性能に期待していいのか:元麻布春男のWatchTower(3/3 ページ)
2008年は“Tock”の年だ。すでに紹介されている情報から、その構成が大きく変ぼうするNehalemに多くのユーザーが注目するが、肝心の「性能」はまだ見えてこない。
Nehalemコアは3次キャッシュで区別する
狭義のマイクロアーキテクチャともいえるコア(Core)だが、Nehalem世代のCPUではデュアルコアから8コアの製品が用意されることになっている。これにPentium 4で実装されたことのあるSMT技術(Simultaneous Multithreading。ハイパースレッディングと同じ機能)を組み合わせ、最大で16スレッドの同時処理能力を持たせるというのがインテルの計画だ。
基本的にCoreの種類は1種類で、モバイルからサーバまで同じものを利用するという。インテルは、NehalemですべてのセグメントのCPUを更新する予定であり、いまのところ、一部にPenrynを残す考えはないようだ。
Nehalem世代では、内蔵するコアで共有される3次キャッシュがUncoreになる一方で、Coreが256Kバイトの2次キャッシュを内蔵するようになる。Penrynと比較すると、Nehalemの2次キャッシュは、Penrynの1次キャッシュと2次キャッシュの間に1.5次キャッシュを挟み込んだようにも見える。
上に述べたCoreの種類が1つということと合わせて考えると、モバイルからサーバまで、1次キャッシュ(32Kバイトの命令キャッシュと32Kバイトのデータキャッシュで、これはCoreマイクロアーキテクチャと同じ)と2次キャッシュは共通で、グレードの区別はUncoreに含まれる3次キャッシュの容量で行うことになる。Coreは1種類というメッセージを素直に受け取れば、Nehalem世代になるとCeleronも256Kバイトの2次キャッシュを持つことになるが、このあたりの計画については、まだ具体的に語られたことはない。
3次キャッシュの容量については4コアで最大8Mバイトとされている。これは、8Mバイトを下回る3次キャッシュを持ったモデルが用意されることをうかがわせるが、こちらも具体的な計画は明らかにされていない。
1次キャッシュから3次キャッシュまで、Nehalemのキャッシュメモリに共通しているのは、すべてが従来と同じInclusiveであることだ。コアごとに独立した1次キャッシュと2次キャッシュのデータは、すべて共有3次キャッシュにも存在するため、3次キャッシュでミスを起こしたコアが、ほかのコアが使っている1次/2次キャッシュを参照する必要がない(キャッシュスヌープのためのトラフィックが生じないメリットがある)。
インテル製CPUのキャッシュメモリは、物理アドレスで参照されるため、メモリ(キャッシュを含む)へのアクセスは常にTLB(仮想アドレスを物理アドレスへ変換するためのテーブルを保持しているバッファ)にアクセスする。NehalemではPenrynまでのTLBに追加する形で2次のTLBが設けられ、より大きなデータセットを利用するアプリケーションでもメモリアクセス速度が低下しないようになっている。
キャッシュメモリの話が先になってしまったが、NehalemのCoreそのものについてインテルは、現行のCoreマイクロアーキテクチャをベースにしたもの、と説明している。確かに最大4命令同時デコードが可能なフロントエンドなど、Coreマイクロアーキテクチャを継承した部分は少なくない。だが、SMT技術の採用やキャッシュ回りの改良、あるいは2次TLBの追加で明らかなようにCoreマイクロアーキテクチャの流用でもない。
そのことを典型的に示しているのが実行ユニットではないかと筆者は考えている。Penrynの実行ユニットは、最大で5つのμOPsを処理できた。Nehalemのコアでは命令発行ポートが追加され、最大で6つのμOPsの処理が可能になっている。
大変身を遂げるNehalemで性能はどれだけ変わるのか
興味深いのは、強化されたのがStoreであるということだ。一般にPCUの性能を強化する場合、Loadの強化を優先する傾向にある。それは、Loadが滞るとたちまちパイプラインがストールしてしまうのに対して、Storeはバッファでもキャッシュでも、とりあえず書き出しておけばパイプラインをストールさせずに済むからだ。
例えば、Penrynで導入されたMemory Disambiguationは、Storeに依存しないLoadを優先して処理しようというものだった。NehalemでStoreを強化したことには必ず意味があるはずだが、今のところその理由についてはよく分かっていない。
このほかにもNehalemではLoop Detectorをデコーダの後に移す(Loopを検知したらデコーダをオフにできるため省電力につながる)、x64モードでもMacrofusionが利用可能になる、分岐予測機構の拡張、境界をまたいだキャッシュアクセスの高速化、SSE 4.2命令の追加など、マイクロアーキテクチャの改良が行われる。そうなると気になるのは、Penrynに対しNehalemはどれくらい性能が上がるのかということだ。
残念ながら、現時点で性能に関するインテルの公式発表はない。出ている数字は、FSBに対するQPインターコネクトの帯域拡大とか、パイプライン上に展開されうる最大μOPs数とか、性能の強化に必要ではあるものの、具体的な性能の指標とはならないものばかりだ。
筆者は、Nehalemで飛躍的に性能が向上することはない、と思っている。新しく追加される命令セット(SSE 4.2など)が有効なアプリケーションでは、ピンポイント的に性能が向上するかもしれないが、一般的なPCの利用、例えばSYSmarkのようなアプリケーションベースのベンチマークテストの数字が大幅に伸びることはないだろう(大幅、というのは10%以上、くらいの意味で使っている)。
上海で開かれたIDF 2008のTech Insightにおいて、エンタープライズ・マイクロプロセッサ・グループのディレクターであるジム・ブライトン氏は、Nehalemにおけるマイクロアーキテクチャの改良について、1%の消費電力アップで1%以上の性能向上を目指した、という趣旨の発言を行っている。
現在のCPUは、すでに高い完成度に達しており、VLIWなどまったく違うアーキテクチャへ移行するような、よほどの変革がない限り、細かい改良で大幅な性能向上を実現することは難しい(VLIWのアプローチも今のところ大きな成功を収めるには至っていないが)。消費電力の枠組みを守りながら、マイクロアーキテクチャの改良を地道に積み上げて、ここで1%、あそこで1%という具合に性能を改良していくしかないのだと思う。そういう意味では、同一クロックのPenrynとくらべて5%も性能が上がれば(それも、SYSmarkなどの既存アプリケーションで)、インテルの開発陣は相当立派な仕事をしたと評価できるのではないかと思っている。
関連記事
徐々に見えてくるNehalem──8Mバイトの3次キャッシュは「みんなで使う」
3月17日(米国時間)にIntelは、IDFに向けたガイダンスセッションをワールドワイドで行った。そこで明らかになった「Tukwila」「Dunnington」「Nehalem」といった新世代アーキテクチャの情報をまとめて紹介する。インテルの次世代プラットフォームを考える
ntel 4シリーズチップセットやCentrino2と、徐々にではあるがインテルの次世代プラットフォームが姿を現しつつある。その概要をまとめた。インテルは2008年も「革新」
インテルが年頭記者会見を行い「2008年にインテルが成すべきこと」を披露。会場ではCESに登場した「Menlow」「Canmore」、そして、その先をいく「Moorstown」が展示された。インテルの2008年マイルストーンは“45ナノ”と“ひまわり”
インテルが45ナノメートルの製造プロセスに対応した「Penryn」ファミリーの新CPU発表会を開催。“性能向上”だけでなく、“クリーンさ”を前面に打ち出した。北京を旅するなら「Menlow」をお供に──Intel CEOのCES基調講演
Intelの基調講演と聞くと「技術的優位性を力強くアピール」するイメージが強いが、デジタル家電の祭典であるCESでは「分かりやすくて面白い」内容で聴衆を楽しませてくれた。WiMAXとMoorestownで広がるモバイルデバイスの行動圏
IDF 2007の2日めは「モバイル・デイ」がテーマだった。ここでは、ノートPC、UMPC、新しいカテゴリの小型デバイス、そしてWiMAXに関するIntelの発言をまとめていく。UMPC向けプラットフォーム「Intel Ultra Mobile Platform 2007」を正式発表──チャンドラシーカ氏基調講演
2日間の日程で行われたIDF 2007 Beijingにおいて、最も話題を呼んだのがアナンド・チャンドラシーカ氏による新しいUMPCプラットフォームの発表だ。Centrino生誕の地、イスラエルのFabに行く(前編)
Intelのイスラエル拠点、と聞くと、なにかしら“謎のベール”に閉ざされているようなイメージが(勝手な妄想)。元麻布氏はイスラエルのFabでなにを見たのか。Centrino生誕の地、イスラエルのFabに行く(後編)
イスラエルのインテル拠点を巡礼する元麻布氏。前回訪れた「Haifa Validation Center」を後にして、今回は45ナノプロセスの製造拠点に向かう。新世代「45ナノ」CPUの実力を「SYSmark2007」で知る──Core 2 Extreme QX9650
45ナノプロセスルールの時代がもう目の前まできている。その“Penryn”の性能を新世代のベンチマークでじっくりと確かめてみた。「Nehalem」が動いたっ!──IDF初日基調講演から
年2回の開催から年1回となったIDF(北京は特別版ということで)。そのおかげで内容も充実している。リポート第2弾は「Penryn」「Nehalem」をカバーしよう。DDR3への移行はいつ?──IDF 2007で読む「メモリ」「ワイヤレス」のトレンド
大きなインパクトはないものの、細かいアップデート情報で今後のトレンドが把握できた今回のIDF。最後のリポートでは展示会場を中心に紹介したい。「3.0」世代の新規格が明らかに──IDF 2007基調講演から
IDFでは、CPUやプラットフォームに限らない、開発中の新しい技術規格も紹介される。2007年のIDFで取り上げられたのは「USB」「PCI Express」の次世代規格だ。45ナノメートル以降のプロセス技術をひもとく──マーク・ボーア氏基調講演
Intel上級フェローのマーク・ボーア氏が、IDF 2007 Beijingで製造プロセス技術の解説を行い、同社の技術的なアドバンテージをアピールした。Silverthorneは「1ワット2GHz駆動」を目指す
まもなく始まるISSCC(国際固体回路会議)でIntelは多数の論文を発表する。そのなかには、“Silverthorne”に言及するものも用意される。CESで「Menlowマシン」をプチプチしました──「韓国」「中国」「台湾」編
2008年のCESでMenlowマシンをプチプチ(ソフトウェアキーボードなので正しくは“ペタペタ”)してニヤニヤしていた記者は東芝だけでは「満腹」にならなかったようだ。CESで「Menlowマシン」をプチプチしました──東芝編
2007年のCESで「OQOをプチプチ」していたPC USERの記者が、2008年のCESでは「Menlow」マシンで喜んでいるらしい。- 元麻布春男のWatchTower:バックナンバー
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.