ニュース
» 2011年12月22日 14時01分 UPDATE

まさか、このタイミングででてくるとは:大解説! 28ナノプロセスルール採用の新世代GPU「Radeon HD 7970」 (1/4)

AMDが“Southern Islands”と呼んで開発を進めてきた新世代GPUの最上位モデル“Tahiti”を発表した。その詳細をオースティンであった説明会から紹介する。

[本間文,ITmedia]

「Graphics Core Next」とはなんぞ

 AMDは、12月22日(現地時間)に同社が“Graphics Core Next”と呼ぶ次世代グラフィックスアーキテクチャを採用したグラフィックスカード「AMD Radeon HD 7970」を発表した。同製品は、開発コード名“Southern Islands”シリーズとして開発を進めてきた「AMD Radeon HD 7000シリーズ」で、シングルGPU構成フラグシップモデルだ。

 AMD Radeon HD 7970は、TSMCの28ナノメートルプロセスルールで43億1000万トランジスタを集積し、同社のFusion APUで“Radeon Core”と呼ぶStream Processorを2048基搭載する。さらに、グラフィックスメモリインタフェースを384ビットに拡張し、ピーク演算性能は3.79TFLOPSと、従来の同社シングルGPU最上位モデルとなるRadeon HD 6970に比べて、約1.4倍の性能向上を実現した。

 また、AMDは同製品を、グラフィックスカードとしては世界で初めて「第3世代PCI Express」とWindows 8で採用を予定する「DirectX 11.1」のそれぞれに対応することもアピールする。

kn_rd7knews_01.jpgkn_rd7knews_02.jpg AMD Radeon HD 7970の主な仕様(写真=左)。AMDは米テキサス州オースチンにある同社Lone StarキャンパスでRadeon HD 7970で導入した技術の説明会を行っている(写真=右)

進化したグラフィックスアーキテクチャ

 Radeon HD 7000シリーズで採用する“Graphics Core Next”(GCN)とAMDが呼ぶ新しいグラフィックスアーキテクチャは、同社が推進するCPUとGPUを融合した“Fusion”でも大きな役割を果たす存在だ。

 Radeon HDシリーズは、これまで依存関係のない複数の命令を1つの命令としてまとめて実行できる「VLIW」(Very Long Instruction Word)方式を採用してきた。この方式は、グラフィックス用途ではGPUのコアを効率よく利用できるが、汎用コンピューティング用途などでは、実行する複数の命令に依存関係があると、その処理が終わるまでGPUコアの一部を待機させる欠点もあった。また、複数の命令をまとめるためにGPU内部でコンパイルしなおすのに一定の時間を必要とすることも、パフォーマンスに影響を与える結果となった。

 そこで、GCNでは(AMDグラフィックス部門の前身である)ATI TechnologiesがRadeon HDシリーズ以前に採用していた、一般的なSIMD方式に立ち返るとともに、複雑な命令処理にも対応できる機能拡張を行なうことで、グラフィックス処理と汎用コンピューティング処理の両方でスループット性能の向上を図った。

kn_rd7knews_03.jpgkn_rd7knews_04.jpg Radeon HD 7970を公開するグラフィックスアーキテクチャ開発を統括するエリック・デメル最高技術責任者。ATI TechnologiesからAMDにいたるまでのグラフィックスアーキテクチャの変遷。Radeon HDシリーズで採用したVLIW以前には、ATI Technologies時代にSIMDアーキテクチャを採用している。その意味でGCNは原点回帰といえる

GCNの構成を知る

 GCNでは、16基のベクタ演算ユニット(Stream Processor。SP)をひとまとめにした16wayベクタSIMDユニットの4基(合計で64SP)と、1基のスカラプロセッサ、4基のテクスチャフィルタリングユニット、16Kバイトのリード/ライト対応1次キャッシュメモリを統合した「Compute Unit」(以下、CU)を最小単位とする。Radeon HD 7970では、CUを32基搭載し、2048SPを統合する。

 CUは、それぞれ命令発効ユニットやロード/ストアユニットを搭載し、CU 4基で16Kバイトの命令キャッシュと32Kバイトのデータキャッシュ共有することで、個々のCNで独立したカーネル処理ができるようにしている。CUに搭載されたスカラユニットは、フル機能の整数演算機能を備えており、複雑な演算処理の補助に使ったりCU内部の制御に利用する小さなCPUの役割を果たしたりすることで、CUのスカラSIMDユニットを効率よく機能できるようにする。

 2次キャッシュメモリは32基のCUで768Kバイトを共有し、CUに内蔵された1次キャッシュと同様にデータ読み込みだけでなく書き込みにも対応する。1次キャッシュメモリと2次キャッシュメモリで書き込みにも対応したのは、汎用コンピューティング処理で各CU間のデータ共有を容易にするためでもあり、CPUとGPUの連係を高める上でも大きな役割を果たす。

 GCNでは、ジオメトリ性能も向上している。Radeon HD 7970に統合された32基のCUは16基ごとに分けられ、それぞれにジオメトリエンジンを搭載する。このジオメトリエンジンに統合されたテッセレーションユニットは、AMDとしては第9世代に当たり、頂点データの再利用率を引き上げるなどして、Radeon HD 6900シリーズに比べて最大4倍の性能を実現するとAMDは説明する。

kn_rd7knews_20.jpgkn_rd7knews_05.jpgkn_rd7knews_06.jpg Radeon HD 7970のブロックダイヤグラム。32基のGCN構成で2048基のStream Processorを統合。16基のGCNを1組として、それぞれにジオメトリエンジンなどを搭載するほか、384ビット幅のグラフィックスメモリインタフェースを採用する(写真=左)。GCNの核をなすCompute Unit(CU)の構成。16基のStream ProcessorをまとめたベクタSIMDユニット4基と1基のスカラ演算ユニット、4基のテクスチャフィルタリングユニットなどを統合する(写真=中央)。GCNのクアッドSIMD方式と従来のVLIW4方式を比べる。GCNでは命令発効のスケジューリングが容易になり、性能が安定する(写真=右)

kn_rd7knews_07.jpgkn_rd7knews_08.jpgkn_rd7knews_09.jpg GNCで搭載するキャッシュメモリの構成。CUは16Kバイトの1次キャッシュメモリを搭載するほか、1組として16Kバイトの命令キャッシュと32Kバイトのデータキャッシュを4基のCUで共有する。また、32基のCUで768Kバイトの2次キャッシュメモリを共有する(写真=左)。Radeon HD 7900シリーズは、2基のジオメトリエンジンを搭載する。テッセレーションユニットは第9世代に進化した(写真=中央)。テッセレーション機能は大幅に向上し、特に分割が多いテッセレーション処理ではRadeon HD 6970に比べて約4倍のパフォーマンスを示す(写真=右)

       1|2|3|4 次のページへ

Copyright© 2017 ITmedia, Inc. All Rights Reserved.

この記事が気に入ったら
ITmedia PC USER に「いいね!」しよう