Nehalemの性能に期待していいのか元麻布春男のWatchTower(3/3 ページ)

» 2008年05月20日 16時51分 公開
[元麻布春男,ITmedia]
前のページへ 1|2|3       

Nehalemコアは3次キャッシュで区別する

 狭義のマイクロアーキテクチャともいえるコア(Core)だが、Nehalem世代のCPUではデュアルコアから8コアの製品が用意されることになっている。これにPentium 4で実装されたことのあるSMT技術(Simultaneous Multithreading。ハイパースレッディングと同じ機能)を組み合わせ、最大で16スレッドの同時処理能力を持たせるというのがインテルの計画だ。

 基本的にCoreの種類は1種類で、モバイルからサーバまで同じものを利用するという。インテルは、NehalemですべてのセグメントのCPUを更新する予定であり、いまのところ、一部にPenrynを残す考えはないようだ。

 Nehalem世代では、内蔵するコアで共有される3次キャッシュがUncoreになる一方で、Coreが256Kバイトの2次キャッシュを内蔵するようになる。Penrynと比較すると、Nehalemの2次キャッシュは、Penrynの1次キャッシュと2次キャッシュの間に1.5次キャッシュを挟み込んだようにも見える。

 上に述べたCoreの種類が1つということと合わせて考えると、モバイルからサーバまで、1次キャッシュ(32Kバイトの命令キャッシュと32Kバイトのデータキャッシュで、これはCoreマイクロアーキテクチャと同じ)と2次キャッシュは共通で、グレードの区別はUncoreに含まれる3次キャッシュの容量で行うことになる。Coreは1種類というメッセージを素直に受け取れば、Nehalem世代になるとCeleronも256Kバイトの2次キャッシュを持つことになるが、このあたりの計画については、まだ具体的に語られたことはない。

 3次キャッシュの容量については4コアで最大8Mバイトとされている。これは、8Mバイトを下回る3次キャッシュを持ったモデルが用意されることをうかがわせるが、こちらも具体的な計画は明らかにされていない。

 1次キャッシュから3次キャッシュまで、Nehalemのキャッシュメモリに共通しているのは、すべてが従来と同じInclusiveであることだ。コアごとに独立した1次キャッシュと2次キャッシュのデータは、すべて共有3次キャッシュにも存在するため、3次キャッシュでミスを起こしたコアが、ほかのコアが使っている1次/2次キャッシュを参照する必要がない(キャッシュスヌープのためのトラフィックが生じないメリットがある)。

Nehalemのマイクロアーキテクチャ。現行のCoreマイクロアーキテクチャをベースにしながら、コアごとに独立した2次キャッシュと2次TLBを追加した
3次キャッシュをUncoreとして分離したため、搭載するコアの数や求められる性能に応じて3次キャッシュの容量を増減したり、将来拡張することが容易だ

 インテル製CPUのキャッシュメモリは、物理アドレスで参照されるため、メモリ(キャッシュを含む)へのアクセスは常にTLB(仮想アドレスを物理アドレスへ変換するためのテーブルを保持しているバッファ)にアクセスする。NehalemではPenrynまでのTLBに追加する形で2次のTLBが設けられ、より大きなデータセットを利用するアプリケーションでもメモリアクセス速度が低下しないようになっている。

 キャッシュメモリの話が先になってしまったが、NehalemのCoreそのものについてインテルは、現行のCoreマイクロアーキテクチャをベースにしたもの、と説明している。確かに最大4命令同時デコードが可能なフロントエンドなど、Coreマイクロアーキテクチャを継承した部分は少なくない。だが、SMT技術の採用やキャッシュ回りの改良、あるいは2次TLBの追加で明らかなようにCoreマイクロアーキテクチャの流用でもない。

 そのことを典型的に示しているのが実行ユニットではないかと筆者は考えている。Penrynの実行ユニットは、最大で5つのμOPsを処理できた。Nehalemのコアでは命令発行ポートが追加され、最大で6つのμOPsの処理が可能になっている。

Penrynに採用されているCoreマイクロアーキテクチャ。実行ユニットは3つのALUとLoad、Storeそれぞれ1つを搭載しているので、5命令(μOPs)の同時実行(最大)が可能だ
Nehalemの実行ユニット。ALUが3つなのはPenrynと同様だが、メモリオペレーション(Store)が強化され、最大6μOPsが同時に処理できる

大変身を遂げるNehalemで性能はどれだけ変わるのか

 興味深いのは、強化されたのがStoreであるということだ。一般にPCUの性能を強化する場合、Loadの強化を優先する傾向にある。それは、Loadが滞るとたちまちパイプラインがストールしてしまうのに対して、Storeはバッファでもキャッシュでも、とりあえず書き出しておけばパイプラインをストールさせずに済むからだ。

 例えば、Penrynで導入されたMemory Disambiguationは、Storeに依存しないLoadを優先して処理しようというものだった。NehalemでStoreを強化したことには必ず意味があるはずだが、今のところその理由についてはよく分かっていない。

 このほかにもNehalemではLoop Detectorをデコーダの後に移す(Loopを検知したらデコーダをオフにできるため省電力につながる)、x64モードでもMacrofusionが利用可能になる、分岐予測機構の拡張、境界をまたいだキャッシュアクセスの高速化、SSE 4.2命令の追加など、マイクロアーキテクチャの改良が行われる。そうなると気になるのは、Penrynに対しNehalemはどれくらい性能が上がるのかということだ。

 残念ながら、現時点で性能に関するインテルの公式発表はない。出ている数字は、FSBに対するQPインターコネクトの帯域拡大とか、パイプライン上に展開されうる最大μOPs数とか、性能の強化に必要ではあるものの、具体的な性能の指標とはならないものばかりだ。

 筆者は、Nehalemで飛躍的に性能が向上することはない、と思っている。新しく追加される命令セット(SSE 4.2など)が有効なアプリケーションでは、ピンポイント的に性能が向上するかもしれないが、一般的なPCの利用、例えばSYSmarkのようなアプリケーションベースのベンチマークテストの数字が大幅に伸びることはないだろう(大幅、というのは10%以上、くらいの意味で使っている)。

 上海で開かれたIDF 2008のTech Insightにおいて、エンタープライズ・マイクロプロセッサ・グループのディレクターであるジム・ブライトン氏は、Nehalemにおけるマイクロアーキテクチャの改良について、1%の消費電力アップで1%以上の性能向上を目指した、という趣旨の発言を行っている。

 現在のCPUは、すでに高い完成度に達しており、VLIWなどまったく違うアーキテクチャへ移行するような、よほどの変革がない限り、細かい改良で大幅な性能向上を実現することは難しい(VLIWのアプローチも今のところ大きな成功を収めるには至っていないが)。消費電力の枠組みを守りながら、マイクロアーキテクチャの改良を地道に積み上げて、ここで1%、あそこで1%という具合に性能を改良していくしかないのだと思う。そういう意味では、同一クロックのPenrynとくらべて5%も性能が上がれば(それも、SYSmarkなどの既存アプリケーションで)、インテルの開発陣は相当立派な仕事をしたと評価できるのではないかと思っている。

Penrynで採用されたMemory Disambiguation。プログラムでの記述順にかかわらず、Store1やStore3に影響を受けないLoad4をまず最初に実行する
プロセス技術の進歩による性能向上と駆動電圧(Vmax/Vmin)の関係を示したもの。性能向上のためにVmaxを引き上げつつも、回路技術の工夫でVminも下げることで、1つのコアをモバイルからサーバーまでスケール可能にする

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2024年04月16日 更新
  1. 「JBL Tune 310C USB」レビュー USB Type-C接続×ハイレゾ対応でAndroidスマホやiPhone 15シリーズにもお勧め! (2024年04月15日)
  2. Googleが生成AI向け独自CPU「Google Axion」プロセッサを発表/Intel N100を採用した超小型コンピューティングモジュール「LattePanda Mu」 (2024年04月14日)
  3. Amazonのタイムセールが「スマイル SALE」に変更 4月19日からゴールデンウィークセール開催 (2024年04月13日)
  4. アキバでは散りはじめた桜 それでも桜デザインが注目を集める理由 (2024年04月15日)
  5. これを待ってた! ロープロ版GeForce RTX 4060搭載カードがASUSから登場! (2024年04月13日)
  6. 自宅の「スマートロック」にありがちな誤解 家から締め出されないために心掛けている実践的な5つのこと (2024年04月12日)
  7. 「SwitchBot ハブ2」と「ハブミニ(Matter対応)」のMatter機能がアップデート 多くの同社製デバイスがホームアプリで操作可能に (2024年04月13日)
  8. 8コア16スレッドのRyzen 9 7940HS×Radeon 780M搭載! 片手で握れるミニデスクトップPC「GEEKOM A7」の“強さ”をチェック! (2024年04月10日)
  9. 玄人志向、M.2 NVMe SSDを2枚装着可能なUSB外付けスタンド クローン作成も可能 (2024年04月15日)
  10. ロジクールの“ちょい上”パンタグラフ式キーボード「Signature Slim K950」を試す (2024年04月11日)
最新トピックスPR

過去記事カレンダー