次世代GPUアーキテクチャ「Fermi」の内部構造に迫るNVIDIA GPU Technology Conference(2/2 ページ)

» 2009年10月07日 10時41分 公開
[笠原一輝,ITmedia]
前のページへ 1|2       

512個のCUDAコアで爆速演算が可能になっているFermi

 NVIDIAが公開したFermiの内部構造によると、Fermiには「CUDAコア」と呼ばれるプロセッサコアが512個も内蔵されており、この膨大な数のCUDAコアを利用してベクトル演算などで多用される並列演算をこなしていく。Fermiでは、32個のCUDAコアを1つの単位として、SM(Streaming Multiprocessor)と呼ばれる演算ユニットを構成する。FermiではSMが16個用意されることになる。

 プログラムから送られてきた演算命令は、「GigaThread」と呼ばれるスケジューラを利用して、スケジューリングされて各SMに送られる。各SMでは、GT200の1つから2つと倍になった「Warp Scheduler」と呼ばれるSM内部用スケジューラで演算命令がさらにスケジューリングされて各CUDAコア、データのロードとストアを担当するロード・ストアユニット、サインやコサインなどの特殊な演算を担当するSFU(Special Function Unit)に送られて演算処理を行う。

 Fermiでは、演算を担当するプロセッサの数がG80やGT200より強化されただけでなく、演算を担当するプロセッサ(=CUDAコア)も強化される。CUDAコアでは浮動小数点演算を担当するFPユニットと整数演算を担当するINTユニットが各コアに内蔵されているが、FPユニットは従来の単精度だけでなく倍精度も扱えるようになった。倍精度の浮動小数点演算能力は、従来のGT200に比べて実に8倍といわれている。

 このほかに強化された点として、階層化されたメモリ構造が挙げられる。従来のGPUでも、ローカルメモリに相当するシェアードメモリを搭載している例があったが、Fermiの各CUDAコアは、ローカルのシェアードメモリ以外に、それぞれのSMに用意される1次キャッシュ、GPU全体で共有する2次キャッシュ(768Kバイト)、そして最後にメインメモリになるDRAMという順でメモリにアクセスする。キャッシュにあるデータであればメインメモリまでアクセスしなくていいので、GPU全体でメモリ帯域を節約でき、メモリからデータを取ってくるまでに待たされる時間(レイテンシ)を削減して、演算性能を向上できる。

 なお、Fermiは64ビットのDRAMコントローラを6つ搭載しており、合計384ビット幅でメモリにアクセスできる。利用できるDRAMはGDDR5とGDDR3で、GDDR3を利用した場合には最大で6GBまでメモリを搭載できる。なお、Fermiはミッションクリティカルな用途も想定されているため、GPUでは初めてECC(Error Correcting Code、メモリの値の誤りを検出し正しい値に訂正する機能、サーバ用のメモリなどで利用されている)にも対応する。

NVIDIAが公開したFermiのダイ写真(写真=左)とFermiのブロックダイアグラム(写真=右)

SM(Streaming Multiprocessor)の構造。32個のCUDAコアから構成されており、実際の演算を担当する(写真=左)。CUDAコアの仕組み。倍精度の浮動小数点演算の性能が、従来世代に比べて8倍に強化されている

モジュラー化されているFermiのアーキテクチャで各セグメントに派生モデルを投入可能

 繰り返しになるが、今回発表されたFermiは、アーキテクチャのオーバービューであり、実際の製品として発売される製品とは異なる。NVIDIAのタマシ氏によれば「Fermiはモジュラー化されているので、市場セグメントに合わせて機能をカットオフしたり、逆に追加したりできる」というので、実際に登場する製品は価格帯で機能が違う可能性がある。

 例えば、NVIDIAはFermiのグラフィックス関連の機能に関して何も語っていないが、当然のことながら、Direct3DやOpenGLに対応した固定ハードウェアも何らかの形で搭載されると考えるのが自然だろう。それらの機能はGPUコンピューティング専用のラインアップになるTeslaでは必要ないので、ダイ上でオフにする可能性はある。

 逆に、512個のCUDAコア(=16個のSM)というスペックは、コンシューマPC向けのGPUとしてはオーバースペックであるし、ノートPCなどには消費電力が大きすぎる。そうした用途にはSM単位でCUDAコアの数を減らすことも可能だろう。例えばメインストリーム向けのモデルでは8個のSMを、ローエンド向けでは4個のSMという派生モデルが考えられる。こういう場合に、タマシ氏のいう「モジュラー化されているデザイン」が有効になるはずだ。

 ただ、1つだけ気になるのは、これだけGPUコンピューティングにチューニングした構成で3Dグラフィックスの性能はどうなるのかという点だ。3Dグラフィックスの機能と性能に影響する、3D向けの固定機能がどれだけ実装しているかについてNVIDIAは明らかにしていないため、現時点でFermiの3D性能は不明だ。

 なお、NVIDIAは現時点ではFermiをいつ出すのかに関しては明らかにしていないが、同社CEOのファン氏によれば、「製品はTesla、Quadro、GeForceを同じタイミングでリリースする」とのことなので、Teslaだけが先行して、コンシューマモデルは当面なし、ということはなさそうだ。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年05月24日 更新
  1. 日本が舞台のオープンワールドレースゲーム「Forza Horizon 6」は、土地の空気感まで再現された圧倒的リアルさ 車好きでなくとも絶対ハマる理由 (2026年05月23日)
  2. かわいらしい水色が魅力の「Omikamo 折り畳み式Bluetoothキーボード」がタイムセールで25%オフの5688円に (2026年05月22日)
  3. どんな場面で役立つ? 「サンワダイレクト ペン型マウス 400-MAWBT202R」がタイムセールで23%オフの5380円に (2026年05月22日)
  4. 26万円のASUS製Ryzenマザーが即完売! 33万円引きの特価グラフィックスカードなど秋葉原を騒がせた目玉パーツ (2026年05月23日)
  5. スマホを開かずに天気や予定をひと目で把握できる「SwitchBot スマートデイリーステーション」がタイムセールで14%オフの1万3680円に (2026年05月22日)
  6. Googleが個人向け自律型AIエージェント「Gemini Spark」発表/LGが1000Hzのリフレッシュレートにネイティブ対応した「LG UltraGear(25G590B)」を発表 (2026年05月24日)
  7. バッテリー着脱式! Ryzen AI Max+ 395で驚異の性能をたたき出すポータブルPC「OneXFly APEX」を試す (2026年05月22日)
  8. メモリ容量が最大192GBに! AMDが新型モンスターAPU「Ryzen AI Max PRO 400」を発表 (2026年05月22日)
  9. 小さすぎるモバイルマウス「サンワダイレクト 400-MAWB216GM」が18%オフで販売中 (2026年05月22日)
  10. VAIOが個人向け製品を統一価格で提供する「指定価格制度」を開始 (2026年05月22日)
最新トピックスPR

過去記事カレンダー

2026年