Special
» 2020年09月24日 10時00分 公開

ベンチマークテストはどうあるべきか?──インテルが「実体験」を重視する理由 (1/2)

CPUの進化/性能向上に合わせて、それを数値化して分かりやすく示すベンチマークテストも時代に応じて変化を続けてきた。現在のベンチマークテストでは何が行われているのか、その種類や中身を分かりやすく解説をすると共に、ユーザーにとって大切なものは何かについて考える。

[PR/ITmedia]
PR

 PCの性能を評価する手段として、おなじみのベンチマークテスト。メジャーなところでは、PCMark 10や3DMark、CINEBENCH、SYSMark 25、MobileMark 2018といったものがあるが、その具体的な内容まで知っている人はどのくらいいるのだろうか。

 ここでは、メジャーなベンチマークテストを取り上げ、その内容を解説するとともに、その結果について、どのように判断すればよいのかについて考えてみよう。

Intel Bench コンピュータの一般的な用途と代表的なベンチマークテスト。SYSMark 25やMobileMark 2018を手がけるBAPCoは、インテルを含め各PCメーカーやメディアも参画している

「Synthetic」と「Real World」

 ベンチマークテストには、大きく分けて「Synthetic」(シンセティック)と「Real World」の2種類がある。前者は、PC(パーツ)の性能を計測するために人工的にプログラムされたベンチマークのことで、後者は実際のアプリケーションを利用したベンチマークだ。

 Real Worldのテストの場合は、そのアプリケーションを利用して似たような作業をするユーザーにとっては使用感に直結する、信頼できる指標になる。

 処理内容が平均的なユーザーのユースケースからかけ離れていたり、処理内容が偏っていたりする可能性はなくもないが、基本的にはメジャーなアプリケーションを利用し、典型的なユースケースをトレースする内容になっている。

 一方、Syntheticなベンチマークテストのスコアを見る際には、そのテストの性格を把握しておく必要がある。ポイントは、Real Worldのユースケースをシミュレートするものなのか、ある特定のパーツの機能や能力を単純に計測するものなのかという違いだ。

 前者の場合は、信頼ある作成者によるものであればReal Worldのテストに準じた扱いをすることができる。一方、後者の場合は、PCパーツの新機能の確認や分析に利用する場合には有効だが、ユーザーが受ける実際の使用感には直結しないものであることに注意したい。

 続いて、メジャーなベンチマークテストを1つずつ見ていこう。

CINEBENCH R20

 CINEBENCH R20は、MAXONの3DCGソフト「CINEMA 4D」をベースにしたベンチマークテストだ。実際にCGレンダリングを行ってスコアを出す。マルチスレッドに最適化されており、最大256スレッドでのレンダリングに対応する。CPUの最大スレッドでレンダリングを行う「CPU」と、あえて1スレッドのみでレンダリングを行う「CPU(シングルコア)」それぞれのスコアが出される。

 CPUの拡張命令セット「AVX2」に対応しており、CPUに高負荷が連続してかかる一方、CPU以外の要素にほとんど依存しないワークロードであるため、CPUの基本性能、最大ポテンシャルを確認するためのテストとしては非常に有用だ。放熱性能やCPUブースト機能の考察の手がかりにもなる。

Intel Bench CINEBENCH R20のテスト画面

Sisoft Sandra 20/20

 典型的なSyntheticのベンチマークテストで、CPUやCPUキャッシュ、メモリ、ストレージ、GPUなどコンポーネント別の特定の部分、特定の処理内容にフォーカスした内容のベンチマークテストが多数用意されている。

 最新技術の反映も迅速で、特定のCPUに実装されたばかりの拡張命令の確認やアーキテクチャ変更の確認、分析などにも有効だ。そのため、CPUの評価などに使われることが多い。

 ただし、こういう特性があるゆえ、拡張命令の対応の有無だけで大きな差が出る。最新のハードウェアのアーキテクチャとテストプログラムの仕様、いずれにも精通しているテスターでないと適切な考察はできない。見識のないテスターによる測定結果を元に評価するのは非常に危険である。

Intel Bench Sisoft Sandraの画面

PCMark 10

 米UL傘下のUL Benchmarksが提供しているベンチマークテスト。パフォーマンス、バッテリー、ストレージと3種類のテストが用意されており、パフォーマンスとバッテリーのテストは典型的なReal Worldのテストで、世界中で定番的に利用されている。

 パフォーマンステストの内容は、日常操作(Essentials)、オフィス(Productivity)、クリエイティブ(Digital Content Creation)、Gaming(ゲーミング)と4項目が用意されている。最もよく使われる標準テスト(PCMark 10)では、Gaming以外の3項目を含む。

 バッテリーテストも複数用意されており、パフォーマンステストの一部内容を長めの間隔をとって実行する「Modern Office」の他、Microsoft Officeを使った「Applications(別途Microsoft Officeのインストールが必要)」、動画再生「Video」「Gaming(ゲーム)」「Idle(アイドル)」とさまざまな処理でのパフォーマンスとバッテリー駆動時間の測定が可能だ。

 また、ストレージテストは、システムドライブ、データドライブのアクセスパターンをシミュレートするテストに加え、持続的なパフォーマンスを測定するための過酷な書き込みを連続で行う内容も用意されている。

Intel Bench PCMark 10のテスト結果画面

3DMark

 3Dグラフィックス性能を計測するULのベンチマークテストで、オリジナルのゲームエンジンを利用したSyntheticなベンチマークであるが、DirectXベースのグラフィックス技術をいち早く取り入れる技術力、開発力の高さから、3Dグラフィックスのテストとして幅広く使われている。

 PC/GPUのパフォーマンスレベルと、使われている技術が異なる多数のテストで構成されているのが特徴だ。DirectX 11世代の「Fire Strike」、DirectX 12世代の「Time Spy」、DirectX Raytracing(DXR)対応の「Port Royal」などがある。

 スコアを見る際に注意したいのは、これらも複数の内容の小テストで構成されており、総合スコアは、それを独自の重み付けで加重平均したものになっているということだ。

 例えば、FireStrikeの「Graphics」テストの内容は、ゲームシーンを描画してフレームレートを計測するもの。Real Worldを意識して再現を狙っているため、目安として参考になる内容だ。

 一方、FireStrikeの「Physics」はCPUの物理演算性能を単純に計測する内容になっており、これを総合スコアに合算してしまうのは不適当だろう。

 Fire Strikeのスコア算出においては、Physicsの比重は低く抑えられており、現在ほど極端なメニーコアのバリエーションがなかった時代には問題となっていなかったが、CPUのコア数の差が大きくなっている現状では、3DMarkの総合スコアだけを単純に比較してしまうと実情とは違う結論になってしまうことがありうるといった課題を抱えている。

Intel Bench Time Spyのスコア画面

SYSMark 25

 SYSMarkは、非営利団体の「BAPCo」により提供されているベンチマークテストだ。Real Worldのアプリケーションを利用してPCシステムのパフォーマンスを計測比較することを目的としてデザインされており、AdobeやMicrosoftのメジャーなアプリケーションを利用したリアルなシナリオで構成されている。

 Document Editing(ドキュメント編集)、Spreadsheets(表計算)、Web Browsing(Webブラウズ)、Photo Editing(写真編集)、Photo Organization(写真整理)、Video Editing(ビデオ編集)に、アプリケーションの起動やファイル展開などシステムリアクションを測定する「Responsiveness(レスポンス測定)」を加えた7項目のシナリオから、Productivity(生産性)、Creativity(創造性)、Responsiveness(レスポンス)と3種類のスコアを算出する。

Intel Bench SYSMark 25のテスト結果

MobileMark 2018

 MobileMark 2018は、SYSMark同様、非営利団体の「BAPCo」により提供されているベンチマークテストだ。モバイルノートPCのリアルなパフォーマンス、バッテリー駆動時間を測定するために設計されている。

 AdobeやMicrosoft、CyberLinkなど、実在するメジャーなアプリケーションを利用したシナリオを利用することによって「Productivity」「Creativity」「WebBrowsing」と3種類のユーザーシナリオを定義し、実行する内容だ。

 バッテリー駆動時間の計測においては、実際にユーザーが期待できるリアルな駆動時間を測定することを目的として、単に決まったワークロードを繰り返して実行するだけでなく、アイドルタイム(画面表示オン/オフ)を考慮した利用状況を再現する。これにより、デバイスの省電力に関する最適化を反映したリアルな駆動時間と、バッテリー駆動中のパフォーマンスを測定できる。

ゲーム内ベンチマークやフレームレート計測

 ゲームのパフォーマンスを測定する方法には、実在するゲームタイトルを利用した方法がある。

 いくつかのゲームは「公式ベンチマークテスト」を配布したり、ゲーム内に「ベンチマークモード」を用意している。いずれも実際のゲームのエンジンを利用してデモシーンを描画し、フレームレートからシステムのパフォーマンスを評価するという内容になっているため、そのゲームをプレイするユーザーにとっては参考になるだろう。

 ベンチマークモードを持たないゲームタイトルの場合は、実際にゲームをプレイしている時のフレームレートを「FRAPS」や「CapFrameX」といった外部ツールで計測するという方法がある。

 どういった場面で計測するのか、全く同一の場面を再現できない(リプレイ機能などがあれば別)といった課題はあるが、実際の場面だけに、そのゲームタイトルのプレイを考えているユーザーにとっては、参考になるだろう。

動画エンコード時間

 既存のプログラムに頼らない方法としては、動画エンコードの時間もよく使われる。実際のビデオ編集ソフトや動画エンコーダーを使い、動画素材を別のコーデック/フォーマットに変換したり、編集済みのプロジェクトをエンコードしたりして書き出す時間を測定するものだ。

 使われる素材やコーデックなどはテスターによって異なるために汎用(はんよう)性はないが、YouTubeやSNSが普及した現在では身近で具体的な処理内容だけに、ユーザーにとっては分かりやすい。ベンチマークのスコアで示されるより、リアルな時間で結果が出るので、ピンときやすいという面もあるだろう。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.


提供:インテル株式会社
アイティメディア営業企画/制作:ITmedia PC USER 編集部/掲載内容有効期限:2020年9月30日