検索
レビュー

「GeForce RTX 5080」への乗り換えはアリ? 「GeForce RTX 3080 Ti」搭載PCで試した結果(3/4 ページ)

まもなく「GeForce RTX 5080」が登場する。このGPUは「グラフィックスカードの置き換え」目線で考えた場合にどうなのか、「Intel NUC 13 Extreme Kit」のCore i9-13900Kモデルに実装して検証した。

Share
Tweet
LINE
Hatena

動画のエンコードはどう?

 別記事で解説したが、GeForce RTX 50シリーズは新世代の動画エンコーダー(第9世代)/デコーダー(第6世代)を搭載している。

 今回比較している3つのGPUのエンコーダー/デコーダーの搭載状況は以下の通りだ。

  • GeForce RTX 3080 Ti:エンコーダー1基(第7世代)/デコーダー1基(第5世代)
  • GeForce RTX 4080:エンコーダー2基(第8世代)/デコーダー1基(第5世代)
  • GeForce RTX 5080:エンコーダー2基(第9世代)/デコーダー2基(第6世代)

 3080 Tiと比べると、5080はエンコーダーもデコーダーも2倍となっている。4080と比べた場合でも、デコーダーが1基増えているため、マルチストリーム再生時のパフォーマンスが改善しているものと思われる。

 今回は時間の都合で、ULの総合ベンチマークテストアプリ「Procyon」に内包されたテスト「Video Editing Benchmark」を実施した。このテストは、「Adobe Premiere Pro」を使ってフルHD(H.264コーデック)と4K(H.265コーデック)の動画を2種類ずつ書き出す際のパフォーマンスを点数化する。負荷の大きい2つ目のテストは、エフェクト処理でGPUによるアクセラレーションを有効にできる。

 総合スコアではなく、あえて書き出しに掛かった時間をチェックしてみると、以下の通りとなる。

  • GeForce RTX 5080
    • フルHD/その1:14.7秒
    • フルHD/その2(GPUアクセラレーション):13.7秒
    • 4K/その1:49.6秒
    • 4K/その2(GPUアクセラレーション):42.7秒
  • GeForce RTX 4080
    • フルHD/その1:17.7秒
    • フルHD/その2(GPUアクセラレーション):15.7秒
    • 4K/その1:54.5秒
    • 4K/その2(GPUアクセラレーション):47.6秒
  • GeForce RTX 3080 Ti
    • フルHD/その1:17.7秒
    • フルHD/その2(GPUアクセラレーション):16.3秒
    • 4K/その1:55.4秒
    • 4K/その2(GPUアクセラレーション):47.6秒

 順当に「5080>4080>3080 Ti」という結果となった。2つ目のテストは、GPUアクセラレーションをオフ(=CPU処理)にすると時間がめっぽう掛かり、ハイエンドCPU/GPUを搭載するPCであっても、全テスト終了までに1時間近く要することもある。エフェクトを多用する場合は、エンコーダー/デコーダーを含めたGPUの全体性能も重要となる。

 5080は、グラフィックスメモリがGDDR7規格であり、PCとの接続にPCI Express 5.0バスを利用する。メモリやバスの高速化が積み重なった結果、従来モデルよりも高速な動画書き出しを実現できている

 動画の書き出しは、長尺になるほどわずかの差が大きな差となる。一層の時短を狙うなら、5080の導入は効果が高そうだ。

Procyon
Procyon Video Editing

物体検知/生成AIのパフォーマンスは?

 最近、NPUを搭載する「AI PC」が評判だが、AI(人工知能)の演算処理にGPUを用いるアプリ(プログラム)も多い。そこで動画の書き出しテストでも登場したULのProcyonを使って、GPU演算を利用するAIのパフォーマンステストを実施してみた。

AI Computer Vision Benchmark

 「AI Computer Vision Benchmark」は、機械学習データを使って物体を検知する「コンピュータビジョン」の処理パフォーマンスを確認するテストだ。複数のAPI(命令セット)で同種のテストを実行可能で、命令セットによってはCPU/NPU/GPUのパフォーマンス差もチェックできる。

 NVIDIA製GPUを搭載しているWindows PCの場合、本来はGPU演算のAPIとして「Windows ML(Direct ML)」か「NVIDIA TensorRT」を選択できる。しかし、現在のAI Computer Vision BechmarkはGeForce RTX 50シリーズにおけるTensorRT APIに対応していない(対応に向けた修正を準備している)。そこで今回は、Windows ML APIを使った場合の演算パフォーマンスを比較する。総合スコアは以下の通りだ。

  • GeForce RTX 5080
    • INT(整数演算):634ポイント
    • Float16(半精度浮動小数点数演算):2164ポイント
    • Float32(単精度浮動小数点数演算):1267ポイント
  • GeForce RTX 4080
    • INT(整数演算):539ポイント
    • Float16(半精度浮動小数点数演算):1786ポイント
    • Float32(単精度浮動小数点数演算):1116ポイント
  • GeForce RTX 3080 Ti
    • INT(整数演算):415ポイント
    • Float16(半精度浮動小数点数演算):1501ポイント
    • Float32(単精度浮動小数点数演算):912ポイント

 やはり順当な「5080>4080>3080 Ti」という結果だった。Windows MLという汎用(はんよう)APIを使うことによるオーバーヘッドはさておいて、5080は4080比で1.14〜1.21倍、3080 Ti比で1.39〜1.53倍のパフォーマンスとなっている。機械学習ベースのAIを使う場合は、やはり「なるべく新しいGPU(グラフィックスカード)」がよさそうである。

AI Computer Vision Benchmark
Procyon AI Computer Vision Benchmarkの結果

AI Image Generation Benchmark(FLUX.1 Beta)

 ProcyonにはStable Diffusionベースの画像生成AIテスト「AI Image Generation Benchmark」もある。しかし、本テストも現時点ではTensorRT APIに対応していない。「ONNX」APIを使えばテスト可能なのだが、今回は時間の都合で見送った。

 その代わり、ULとNVIDIAがβ提供しているFLUX.1ベースのAI Image Generation Benchmarkを実行してみた。このテストは、グラフィックスメモリの容量の都合から3080 Tiでの測定を行っていない。生成完了までの所要時間は以下の通りだ。

  • GeForce RTX 5080
    • FP4(4bit浮動小数点数演算):27.968秒
    • FP8(8bit浮動小数点数演算):57.696秒
  • GeForce RTX 4080
    • FP4(4bit浮動小数点数演算):128.82秒
    • FP8(8bit浮動小数点数演算):66.869秒

 「5080>4080」なのはもちろんなのだが、FP4の演算で“大差”が付いている。これはGeForce RTX 50シリーズのTensorコアでFP4演算をネイティブサポートした成果である(GeForce RTX 40シリーズではFP8に変換してから演算するためオーバーヘッドが生じてしまう)。

 生成AIにおいて、より高速な処理を行うには「精度をあえて低くする」ことが求められる場合がある。しかし、単に精度を低くしても演算器(ここではTensorコア)が低精度演算に対応していないと精度の変換にリソースを割かれてしまうという“本末転倒”な事態もあり得る。

 その点、GeForce RTX 50シリーズでは低精度演算(FP4)をネイティブサポートしたのは、生成AI時代を踏まえた大きな変化といえる。

AI Image Generation FLUX.1 Beta
AI Image Generation Benchmark(FLUX.1 Beta)における画像生成完了までの所要時間

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る