次世代GPUアーキテクチャ「Fermi」の内部構造に迫る:NVIDIA GPU Technology Conference(2/2 ページ)
NVIDIAが9月末に行った技術イベントで最も注目を集めたのが、次世代GPUアーキテクチャ「Fermi」だ。GPUコンピューティングに最適化されるCUDAコアとは?
512個のCUDAコアで爆速演算が可能になっているFermi
NVIDIAが公開したFermiの内部構造によると、Fermiには「CUDAコア」と呼ばれるプロセッサコアが512個も内蔵されており、この膨大な数のCUDAコアを利用してベクトル演算などで多用される並列演算をこなしていく。Fermiでは、32個のCUDAコアを1つの単位として、SM(Streaming Multiprocessor)と呼ばれる演算ユニットを構成する。FermiではSMが16個用意されることになる。
プログラムから送られてきた演算命令は、「GigaThread」と呼ばれるスケジューラを利用して、スケジューリングされて各SMに送られる。各SMでは、GT200の1つから2つと倍になった「Warp Scheduler」と呼ばれるSM内部用スケジューラで演算命令がさらにスケジューリングされて各CUDAコア、データのロードとストアを担当するロード・ストアユニット、サインやコサインなどの特殊な演算を担当するSFU(Special Function Unit)に送られて演算処理を行う。
Fermiでは、演算を担当するプロセッサの数がG80やGT200より強化されただけでなく、演算を担当するプロセッサ(=CUDAコア)も強化される。CUDAコアでは浮動小数点演算を担当するFPユニットと整数演算を担当するINTユニットが各コアに内蔵されているが、FPユニットは従来の単精度だけでなく倍精度も扱えるようになった。倍精度の浮動小数点演算能力は、従来のGT200に比べて実に8倍といわれている。
このほかに強化された点として、階層化されたメモリ構造が挙げられる。従来のGPUでも、ローカルメモリに相当するシェアードメモリを搭載している例があったが、Fermiの各CUDAコアは、ローカルのシェアードメモリ以外に、それぞれのSMに用意される1次キャッシュ、GPU全体で共有する2次キャッシュ(768Kバイト)、そして最後にメインメモリになるDRAMという順でメモリにアクセスする。キャッシュにあるデータであればメインメモリまでアクセスしなくていいので、GPU全体でメモリ帯域を節約でき、メモリからデータを取ってくるまでに待たされる時間(レイテンシ)を削減して、演算性能を向上できる。
なお、Fermiは64ビットのDRAMコントローラを6つ搭載しており、合計384ビット幅でメモリにアクセスできる。利用できるDRAMはGDDR5とGDDR3で、GDDR3を利用した場合には最大で6GBまでメモリを搭載できる。なお、Fermiはミッションクリティカルな用途も想定されているため、GPUでは初めてECC(Error Correcting Code、メモリの値の誤りを検出し正しい値に訂正する機能、サーバ用のメモリなどで利用されている)にも対応する。
モジュラー化されているFermiのアーキテクチャで各セグメントに派生モデルを投入可能
繰り返しになるが、今回発表されたFermiは、アーキテクチャのオーバービューであり、実際の製品として発売される製品とは異なる。NVIDIAのタマシ氏によれば「Fermiはモジュラー化されているので、市場セグメントに合わせて機能をカットオフしたり、逆に追加したりできる」というので、実際に登場する製品は価格帯で機能が違う可能性がある。
例えば、NVIDIAはFermiのグラフィックス関連の機能に関して何も語っていないが、当然のことながら、Direct3DやOpenGLに対応した固定ハードウェアも何らかの形で搭載されると考えるのが自然だろう。それらの機能はGPUコンピューティング専用のラインアップになるTeslaでは必要ないので、ダイ上でオフにする可能性はある。
逆に、512個のCUDAコア(=16個のSM)というスペックは、コンシューマPC向けのGPUとしてはオーバースペックであるし、ノートPCなどには消費電力が大きすぎる。そうした用途にはSM単位でCUDAコアの数を減らすことも可能だろう。例えばメインストリーム向けのモデルでは8個のSMを、ローエンド向けでは4個のSMという派生モデルが考えられる。こういう場合に、タマシ氏のいう「モジュラー化されているデザイン」が有効になるはずだ。
ただ、1つだけ気になるのは、これだけGPUコンピューティングにチューニングした構成で3Dグラフィックスの性能はどうなるのかという点だ。3Dグラフィックスの機能と性能に影響する、3D向けの固定機能がどれだけ実装しているかについてNVIDIAは明らかにしていないため、現時点でFermiの3D性能は不明だ。
なお、NVIDIAは現時点ではFermiをいつ出すのかに関しては明らかにしていないが、同社CEOのファン氏によれば、「製品はTesla、Quadro、GeForceを同じタイミングでリリースする」とのことなので、Teslaだけが先行して、コンシューマモデルは当面なし、ということはなさそうだ。
関連キーワード
GPU | GPUコンピューティング | NVIDIA | Fermi | CUDA | 3D | GeForce | NVIDIA Tesla | アプリケーション開発 | イベント | 次世代 | GDDR | GPGPU | TSMC | グラフィックスカード | HPC | SDK
関連記事
これは壮大なコンピューティング革命の始まりに過ぎない
NVIDIAは米国時間の9月30日から10月2日にかけて、同社の技術を紹介する技術イベントを開いた。そこで注目を集めたのが、新しいGPUアーキテクチャ「Fermi」だ。Tegra搭載の“Zune HD”で720p級動画がガシガシ動いた
NVIDIAが、ようやく製品が増えてきたIONとTegraの最新動向をアピール。手のひらに載るTegraデバイスでHD動画をビシバシと動かした。Atom×GeForceの個性派ミニノート――ASUS「N10Jb」を徹底チェックする
低価格ミニノートPCのグラフィックス性能が不満というユーザーは決して少なくないだろうが、それに応えうる製品は存在するのか? ASUSの意欲作「N10Jb」の実力を探る。ラネクシー、BD対応ライティングソフト最新版「Roxio Creator 2010」
ラネクシーは、ソニック・ソルーションズ製ライティングソフト「Roxio Creator」シリーズの最新版「Roxio Creator 2010」を発売する。日本HP、デスクトップWS「Z800」のオプションに「Tesla C1060」を追加
日本ヒューレット・パッカードは、GPGPUカード「NVIDIA Tesla C1060」の取り扱いを開始。同社製WS「Z800」のカスタマイズオプションに追加した。AtomでもフルHDがOKよ──“ION”搭載超小型ベアボーン「Valore ION 330」で遊ぶ
一部の自作ユーザーから熱烈に支持されているAtom搭載マザーボードだがHD動画の再生には力不足。この弱点を解消する“ION”搭載ベアボーンを試してみた。ドスパラ、NVIDIA Tesla搭載のCUDA対応WS「Fractica」
サードウェーブは、CUDA対応のGPGPUカード「NVIDIA Tesla C1060」を搭載したワークステーション「Fractica」シリーズを発表した。OTAC、“NVIDIA ION”チップセット採用のmini-ITXマザー発売――ACアダプタ動作モデルも
アスクは、ZOTAC製となるAtom搭載mini-ITXマザーボード計4製品の取り扱いを発表。いずれもNVIDIA IONプラットフォーム採用モデルとなる。動くAspireRevo」でIONの性能を体感する
NVIDIAは、4月21日にIONの説明会を日本で行った。会場では、ION搭載製品として登場する予定のAspireRevoも日本で初めて披露された。NVIDIA、3万円台のハイエンドGPU「GeForce GTX 275」発表
NVIDIAは、4月2日に「GeForce GTX 275」を発表した。各ベンダーからこのGPUを搭載したグラフィックスカードが同日リリースされており、実売価格は3万円半ばとなっている。NVIDIA、「GeForce 3D Vision」などをアピールするイベント「NVIDIA GRAPHICS PLUS」をアキバで開催――3月28日
NVIDIAは、同社製品体験コーナーやデモなどを行うイベント「NVIDIA GRAPHICS PLUS」の実施を発表した。サプライズはないけれど2009年のNVIDIAは見えてくる
NVIDIAがInternational CESでブースを設けたのは「商談スペース」のすぐとなり。すぐ裏にある密室で公にできない秘密のブツを見せてくれるハズ……。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.