次世代GPUアーキテクチャ「Fermi」の内部構造に迫る：NVIDIA GPU Technology Conference（2/2 ページ）

NVIDIAが9月末に行った技術イベントで最も注目を集めたのが、次世代GPUアーキテクチャ「Fermi」だ。GPUコンピューティングに最適化されるCUDAコアとは？

[笠原一輝，ITmedia]

512個のCUDAコアで爆速演算が可能になっているFermi

　NVIDIAが公開したFermiの内部構造によると、Fermiには「CUDAコア」と呼ばれるプロセッサコアが512個も内蔵されており、この膨大な数のCUDAコアを利用してベクトル演算などで多用される並列演算をこなしていく。Fermiでは、32個のCUDAコアを1つの単位として、SM（Streaming Multiprocessor）と呼ばれる演算ユニットを構成する。FermiではSMが16個用意されることになる。

　プログラムから送られてきた演算命令は、「GigaThread」と呼ばれるスケジューラを利用して、スケジューリングされて各SMに送られる。各SMでは、GT200の1つから2つと倍になった「Warp Scheduler」と呼ばれるSM内部用スケジューラで演算命令がさらにスケジューリングされて各CUDAコア、データのロードとストアを担当するロード・ストアユニット、サインやコサインなどの特殊な演算を担当するSFU（Special Function Unit）に送られて演算処理を行う。

　Fermiでは、演算を担当するプロセッサの数がG80やGT200より強化されただけでなく、演算を担当するプロセッサ（＝CUDAコア）も強化される。CUDAコアでは浮動小数点演算を担当するFPユニットと整数演算を担当するINTユニットが各コアに内蔵されているが、FPユニットは従来の単精度だけでなく倍精度も扱えるようになった。倍精度の浮動小数点演算能力は、従来のGT200に比べて実に8倍といわれている。

　このほかに強化された点として、階層化されたメモリ構造が挙げられる。従来のGPUでも、ローカルメモリに相当するシェアードメモリを搭載している例があったが、Fermiの各CUDAコアは、ローカルのシェアードメモリ以外に、それぞれのSMに用意される1次キャッシュ、GPU全体で共有する2次キャッシュ（768Kバイト）、そして最後にメインメモリになるDRAMという順でメモリにアクセスする。キャッシュにあるデータであればメインメモリまでアクセスしなくていいので、GPU全体でメモリ帯域を節約でき、メモリからデータを取ってくるまでに待たされる時間（レイテンシ）を削減して、演算性能を向上できる。

　なお、Fermiは64ビットのDRAMコントローラを6つ搭載しており、合計384ビット幅でメモリにアクセスできる。利用できるDRAMはGDDR5とGDDR3で、GDDR3を利用した場合には最大で6GBまでメモリを搭載できる。なお、Fermiはミッションクリティカルな用途も想定されているため、GPUでは初めてECC（Error Correcting Code、メモリの値の誤りを検出し正しい値に訂正する機能、サーバ用のメモリなどで利用されている）にも対応する。

NVIDIAが公開したFermiのダイ写真（写真＝左）とFermiのブロックダイアグラム（写真＝右）

SM（Streaming Multiprocessor）の構造。32個のCUDAコアから構成されており、実際の演算を担当する（写真＝左）。CUDAコアの仕組み。倍精度の浮動小数点演算の性能が、従来世代に比べて8倍に強化されている

モジュラー化されているFermiのアーキテクチャで各セグメントに派生モデルを投入可能

　繰り返しになるが、今回発表されたFermiは、アーキテクチャのオーバービューであり、実際の製品として発売される製品とは異なる。NVIDIAのタマシ氏によれば「Fermiはモジュラー化されているので、市場セグメントに合わせて機能をカットオフしたり、逆に追加したりできる」というので、実際に登場する製品は価格帯で機能が違う可能性がある。

　例えば、NVIDIAはFermiのグラフィックス関連の機能に関して何も語っていないが、当然のことながら、Direct3DやOpenGLに対応した固定ハードウェアも何らかの形で搭載されると考えるのが自然だろう。それらの機能はGPUコンピューティング専用のラインアップになるTeslaでは必要ないので、ダイ上でオフにする可能性はある。

　逆に、512個のCUDAコア（＝16個のSM）というスペックは、コンシューマPC向けのGPUとしてはオーバースペックであるし、ノートPCなどには消費電力が大きすぎる。そうした用途にはSM単位でCUDAコアの数を減らすことも可能だろう。例えばメインストリーム向けのモデルでは8個のSMを、ローエンド向けでは4個のSMという派生モデルが考えられる。こういう場合に、タマシ氏のいう「モジュラー化されているデザイン」が有効になるはずだ。

　ただ、1つだけ気になるのは、これだけGPUコンピューティングにチューニングした構成で3Dグラフィックスの性能はどうなるのかという点だ。3Dグラフィックスの機能と性能に影響する、3D向けの固定機能がどれだけ実装しているかについてNVIDIAは明らかにしていないため、現時点でFermiの3D性能は不明だ。

　なお、NVIDIAは現時点ではFermiをいつ出すのかに関しては明らかにしていないが、同社CEOのファン氏によれば、「製品はTesla、Quadro、GeForceを同じタイミングでリリースする」とのことなので、Teslaだけが先行して、コンシューマモデルは当面なし、ということはなさそうだ。

次世代GPUアーキテクチャ「Fermi」の内部構造に迫る：NVIDIA GPU Technology Conference（2/2 ページ）

512個のCUDAコアで爆速演算が可能になっているFermi

モジュラー化されているFermiのアーキテクチャで各セグメントに派生モデルを投入可能

関連キーワード

GPU | GPUコンピューティング | NVIDIA | Fermi | CUDA | 3D | GeForce | NVIDIA Tesla | アプリケーション開発 | イベント | 次世代 | GDDR | GPGPU | TSMC | グラフィックスカード | HPC | SDK

関連記事

関連リンク

記事ランキング