次世代GPUアーキテクチャ「Fermi」の内部構造に迫るNVIDIA GPU Technology Conference(2/2 ページ)

» 2009年10月07日 10時41分 公開
[笠原一輝,ITmedia]
前のページへ 1|2       

512個のCUDAコアで爆速演算が可能になっているFermi

 NVIDIAが公開したFermiの内部構造によると、Fermiには「CUDAコア」と呼ばれるプロセッサコアが512個も内蔵されており、この膨大な数のCUDAコアを利用してベクトル演算などで多用される並列演算をこなしていく。Fermiでは、32個のCUDAコアを1つの単位として、SM(Streaming Multiprocessor)と呼ばれる演算ユニットを構成する。FermiではSMが16個用意されることになる。

 プログラムから送られてきた演算命令は、「GigaThread」と呼ばれるスケジューラを利用して、スケジューリングされて各SMに送られる。各SMでは、GT200の1つから2つと倍になった「Warp Scheduler」と呼ばれるSM内部用スケジューラで演算命令がさらにスケジューリングされて各CUDAコア、データのロードとストアを担当するロード・ストアユニット、サインやコサインなどの特殊な演算を担当するSFU(Special Function Unit)に送られて演算処理を行う。

 Fermiでは、演算を担当するプロセッサの数がG80やGT200より強化されただけでなく、演算を担当するプロセッサ(=CUDAコア)も強化される。CUDAコアでは浮動小数点演算を担当するFPユニットと整数演算を担当するINTユニットが各コアに内蔵されているが、FPユニットは従来の単精度だけでなく倍精度も扱えるようになった。倍精度の浮動小数点演算能力は、従来のGT200に比べて実に8倍といわれている。

 このほかに強化された点として、階層化されたメモリ構造が挙げられる。従来のGPUでも、ローカルメモリに相当するシェアードメモリを搭載している例があったが、Fermiの各CUDAコアは、ローカルのシェアードメモリ以外に、それぞれのSMに用意される1次キャッシュ、GPU全体で共有する2次キャッシュ(768Kバイト)、そして最後にメインメモリになるDRAMという順でメモリにアクセスする。キャッシュにあるデータであればメインメモリまでアクセスしなくていいので、GPU全体でメモリ帯域を節約でき、メモリからデータを取ってくるまでに待たされる時間(レイテンシ)を削減して、演算性能を向上できる。

 なお、Fermiは64ビットのDRAMコントローラを6つ搭載しており、合計384ビット幅でメモリにアクセスできる。利用できるDRAMはGDDR5とGDDR3で、GDDR3を利用した場合には最大で6GBまでメモリを搭載できる。なお、Fermiはミッションクリティカルな用途も想定されているため、GPUでは初めてECC(Error Correcting Code、メモリの値の誤りを検出し正しい値に訂正する機能、サーバ用のメモリなどで利用されている)にも対応する。

NVIDIAが公開したFermiのダイ写真(写真=左)とFermiのブロックダイアグラム(写真=右)

SM(Streaming Multiprocessor)の構造。32個のCUDAコアから構成されており、実際の演算を担当する(写真=左)。CUDAコアの仕組み。倍精度の浮動小数点演算の性能が、従来世代に比べて8倍に強化されている

モジュラー化されているFermiのアーキテクチャで各セグメントに派生モデルを投入可能

 繰り返しになるが、今回発表されたFermiは、アーキテクチャのオーバービューであり、実際の製品として発売される製品とは異なる。NVIDIAのタマシ氏によれば「Fermiはモジュラー化されているので、市場セグメントに合わせて機能をカットオフしたり、逆に追加したりできる」というので、実際に登場する製品は価格帯で機能が違う可能性がある。

 例えば、NVIDIAはFermiのグラフィックス関連の機能に関して何も語っていないが、当然のことながら、Direct3DやOpenGLに対応した固定ハードウェアも何らかの形で搭載されると考えるのが自然だろう。それらの機能はGPUコンピューティング専用のラインアップになるTeslaでは必要ないので、ダイ上でオフにする可能性はある。

 逆に、512個のCUDAコア(=16個のSM)というスペックは、コンシューマPC向けのGPUとしてはオーバースペックであるし、ノートPCなどには消費電力が大きすぎる。そうした用途にはSM単位でCUDAコアの数を減らすことも可能だろう。例えばメインストリーム向けのモデルでは8個のSMを、ローエンド向けでは4個のSMという派生モデルが考えられる。こういう場合に、タマシ氏のいう「モジュラー化されているデザイン」が有効になるはずだ。

 ただ、1つだけ気になるのは、これだけGPUコンピューティングにチューニングした構成で3Dグラフィックスの性能はどうなるのかという点だ。3Dグラフィックスの機能と性能に影響する、3D向けの固定機能がどれだけ実装しているかについてNVIDIAは明らかにしていないため、現時点でFermiの3D性能は不明だ。

 なお、NVIDIAは現時点ではFermiをいつ出すのかに関しては明らかにしていないが、同社CEOのファン氏によれば、「製品はTesla、Quadro、GeForceを同じタイミングでリリースする」とのことなので、Teslaだけが先行して、コンシューマモデルは当面なし、ということはなさそうだ。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2024年05月10日 更新
  1. 新型「iPad Pro」がM3チップをスキップした理由 現地でM4チップ搭載モデルと「iPad Air」に触れて驚いたこと (2024年05月09日)
  2. 個人が「Excel」や「Word」でCopilotを活用する方法は? (2024年05月08日)
  3. M4チップ登場! 初代iPad Proの10倍、前世代比でも最大4倍速くなったApple Silicon (2024年05月08日)
  4. Core Ultra 9を搭載した4型ディスプレイ&Webカメラ付きミニPC「AtomMan X7 Ti」がMinisforumから登場 (2024年05月08日)
  5. NECプラットフォームズ、Wi-Fi 6E対応のホーム無線LANルーター「Aterm WX5400T6」 (2024年05月09日)
  6. iPad向け「Final Cut Pro 2」「Logic Pro 2」登場 ライブマルチカム対応「Final Cut Camera」アプリは無料公開 (2024年05月08日)
  7. パナソニックがスマートTV「VIERA(ビエラ)」のFire OSモデルを6月21日から順次発売 Fire TVシリーズ譲りの操作性を実現 (2024年05月08日)
  8. SSDの“引っ越し”プラスαの価値がある! 税込み1万円前後のセンチュリー「M.2 NVMe SSDクローンBOX」を使ってみる【前編】 (2024年05月06日)
  9. これは“iPad SE”なのか? 新型iPadを試して分かった「無印は基準機」という位置付けとシリーズの新たな幕開け (2022年10月24日)
  10. “NEXT GIGA”に向けた各社の取り組みやいかに?──日本最大の教育関連展示会「EDIX 東京」に出展していたPCメーカーのブースレポート (2024年05月09日)
最新トピックスPR

過去記事カレンダー