「ベンチマーク」関連の最新ニュース・レビュー・解説記事まとめ

イーロン・マスク氏のLLM「Grok」、1.5更新で画像認識可能に

イーロン・マスク氏のAI企業xAIは、独自のLLM「Grok」の「1.5V」版を発表した。画像認識のマルチモーダルになった。画像認識のベンチマークで「GPT-4V」、「Claude 3 Opus」、「Gemini Pro 1.5」を上回ったとしている。

(2024/4/14)

設計開発環境：CAEベンチマークで最大70％の速度向上　最新ワークステーションの実力とは

AMD Ryzen Threadripper PRO 7000 WXシリーズプロセッサを搭載した日本HPの最新ワークステーション「HP Z6 G5 A」は、CAEツールのベンチマークにおいて最大で約70％のスループット向上を確認したという。その実力に迫った。

(2024/4/16)

週末の「気になるニュース」一気読み！：Intelのファウンドリ事業が2023年に1兆円を超す営業損失を計上／総合ベンチマークソフト「CrystalMark Retro」公開　「水晶碧」版も

うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、3月31日週を中心に公開された主なニュースを一気にチェックしましょう！

(2024/4/7)

80年代レトロファミコン風のミニPC「AYANEO Retro Mini PC AM02」の実力をチェックする

80年代に米国で販売されたファミコン「NES」。それをオマージュしたデザインのデスクトップPCが「AYANEO Retro Mini PC AM02」だ。カッコカワイイ見た目だが、果たして実用性はどうなのだろうか。仕事で使ってみた印象とベンチマークテストの結果を紹介する。

(2024/4/3)

Apple、Google、Microsoft、MozillaがWebブラウザベンチ「Speedo 3.0」リリース

Apple、Google、Microsoft、Mozillaは、共同開発したWebベンチマークツール「Speedometer 3.0」のリリースを発表した。主要ブラウザエンジンBlink、Gecko、WebKitを搭載するWebブラウザのテストが可能だ。

(2024/3/13)

スライドキーボード搭載「AYANEO SLIDE」をデスクトップPCとして使う　その実力を試してみた

パッケージからもこだわりが感じられるポータブルゲーミングPC「AYANEO SLIDE」をデスクトップPCとして使う場合のセットアップ方法を紹介するとともに、ベンチマークテストのスコアや実際に仕事で使えるのかどうかといった部分をレビューしていく。

(2024/3/8)

研究および商用利用が無料：コーディング用LLM「Code Llama」70Bの高性能版が登場

コードと自然言語のプロンプトからコードとコード関連の自然言語を生成する「Code Llama」の高性能バージョン「Code Llama 70B」がリリースされた。高いパフォーマンスを示しており、ベンチマークテストでも他のLLMをしのぐという。

(2024/2/21)

人工知能ニュース：NISTの1：N顔認証技術ベンチマークテストで世界第1位を獲得

NECは、米国国立標準技術研究所（NIST）が実施した顔認証技術のベンチマークテスト「FRTE 1:N Identification」で世界第1位を獲得した。1200万人分の静止画を使用した「1：N認証」において、認証エラー率0.12％という第1位の性能評価を獲得した。

(2024/2/16)

レノボ「Legion Go」を低消費電力モードでテストしたら、思ったよりも強かった【レビュー前編】

レノボ・ジャパンの「Legion Go」は、いわゆる「ポータブルゲーミングPC」としては後発ということもあって、ギミックとスペックの両面で高いレベルだ。しかし、それゆえに、あえて“弱く”した状態でテストしてみたくなるというのが人情である。そこで、あえて電源設定を省エネ重視とした上でベンチマークテストをしてみることにしよう。

(2024/2/13)

ドン・キの「MUGA ストイック PC5」で「パルワールド」や「Baldur's Gate 3」は動く？　試して分かったこと

ドン・キホーテの14.1型ノートPC「MUGA ストイック PC5」で、ベンチマークテストやさまざまなゲームタイトルを試してみた。税込み4万3780円の低価格PCは、どこまでいけるのだろうか。

(2024/1/29)

USB PD給電で動かせる、Core i7-12650H搭載の超小型PC「Minisforum UN1265」を試す

USB PD給電にも対応しているという大きな特徴を持つCore i7-12650H搭載の超小型PC「Minisforum UN1265」の実力を各種ベンチマークテストで確かめてみた。

(2024/1/11)

2023年をレビューPCで振り返る：2023年のノートPC／デスクトップPCはどこまで進化した？　ベンチマークテストで振り返る

PC USERのレビュー記事でおなじみのマルオマサトさんが、実際にレビューしてきたPCを通して1年間を振り返った。

(2023/12/31)

サイジング、パフォーマンスベンチマーク、負荷テストを支援：Google Cloud、パフォーマンスとリソースの最適化に役立つ3つのOSSツールを公開

Google Cloudは、Google Cloud上のKubernetesクラスタの最適化に役立つ、サイジング、パフォーマンスベンチマーク、負荷テストといったタスクを支援するオープンソースツールを公開した。

(2023/12/20)

Microsoft、Igniteで発表の小規模言語モデル「Phi-2」をAzureでリリース

Microsoftは、SLM（小規模言語モデル）の「Phi-2」をAzureでリリースした。27億パラメータだが、複数のベンチマークでMetaの「Llama 2」の700億パラメータモデルやGoogleの32億パラメータの「Gemini Nano 2」を上回った。

(2023/12/13)

Meta、責任ある安全な生成AI開発を促す「Purple Llama」を発表

LLMのLlamaをオープンソースで公開しているMetaは、「責任ある安全な生成AI」の開発を促すプロジェクト「Purple Llama」を発表した。まずはLLM向けのサイバーセキュリティ評価ベンチマークセットをリリースした。

(2023/12/8)

Innovative Tech：人だと正解率92％なのに、GPT-4だと15％になる新型テスト集「GAIA」　米Metaなどが開発

米Metaや米HuggingFaceなどに所属する研究者らは、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル（LLM）を評価するためのベンチマークを発表した。

(2023/12/8)

GoogleのAIチャット「Bard」、「Gemini Pro」搭載でより賢く

Googleは、AIチャット「Bard」に新生成AIモデル「Gemini」のミドルサイズ版「Gemini Pro」を搭載したと発表した。日本でも英語版Bardで試すことができる。Gemini Proは多くのベンチマークでOpenAIの「GPT-3.5」を上回っている。

(2023/12/7)

999ドル：AMDが“高コスパ”のプロ向けGPU「Radeon PRO W7700」を発表　実力をチェック！

AMDが、デスクトップワークステーション向けGPUの新モデル「Radeon PRO W7700」をリリースする。、ECCメモリを備えながらも、米国での販売価格は999ドル（約15万4000円）と比較的手頃である。その特徴を、ベンチマークテストの結果を交えながら簡単に紹介しよう。

(2023/11/13)

xAI、“全人類に利益をもたらすAIツール”を目指す「Grok」正式発表

イーロン・マスク氏が7月に立ち上げたAI企業xAIは、同社初のAIモデル「Grok」を発表した。まだ初期β段階だが、ベンチマークでは「ChatGPT-3.5」や「Inflection-1」を上回るとしている。

(2023/11/5)

「15インチMacBook Air」を買うべき人は？　ベンチマークテストも交えて解説

6月に発売された「15インチMacBook Air」は、15.3型のディスプレイを備えながらも約11.5mmの薄さと約1.51kgの軽さを実現した。その秘密はファンレス設計なのだが、実用的に使えるのだろうか。検証してみたい。

(2023/10/30)

Intelからの挑戦状？：デスクトップ向け「Coreプロセッサ（第14世代）」の実力を検証　クロックアップ分の性能向上はある？

Intelのデスクトップ向け「Coreプロセッサ（第14世代）」のアンロック対応品が発売された。その実力はいかほどのものか、ベンチマークテストを通してチェックしてみよう。【更新】

(2023/10/17)

プロフェッショナルの現場を支える日本HPの最新ワークステーション　その進化をベンチマークテストで確かめる

(2023/10/2)

GPT-4を上回るオープンなLLM誕生？　中国研究者らが「Xwin-LM」公開

米OpenAIの生成AI「GPT-4」を上回る性能をうたうAI「Xwin-LM」が、AIモデル共有サイト「Hugging Face」に公開されている。言語モデルのベンチマークサイト「AlpacaEval」でGPT-4を追い抜き1位を獲得したとしている。

(2023/9/21)

最新GPUはやはり「ワッパ」良好：NVIDIAの測定デバイス「PCAT2」で最新GPUから旧モデルまで消費電力を測って分かったこと（後編）

NVIDIAは、グラフィックスカード（GPU）の消費電力をリアルタイムに測れるデバイス「PCAT」を提供している。今回、PCI Express 4.0に対応した第2世代製品（PCAT2）を試す機会があったので、実際にベンチマークテストを実行しつつ、GPUの消費電力をチェックしていく。

(2023/9/12)

x64版／Arm版／macOS版を用意！　GPUベンチマークが復活した「Cinebench 2024」登場

Maxonが無料で配信しているベンチマークテストアプリ「Cinebench」に最新版が登場する。昨今のレンダリングのワークロードを踏まえてテストの内容を一新した他、Cinebench R15に搭載されていたGPUテストを復活させた。Windows版では、新たにArmプロセッサ向けのプログラムも用意される。

(2023/9/6)

Innovative Tech：グラフ構造学習を評価するためフレームワーク、米Googleが開発　4000以上のアーキテクチャを統一

米Google Researchに所属する研究者らは、グラフ構造学習のベンチマーク戦略を提案するもので、既存のいくつかの方法を単一のモデルにまとめたフレームワークに関する研究報告を発表した。

(2023/9/5)

このサイズでRyzen 7搭載ってマジっすか――超小型デスクトップPC「Minisforum EM680」を試す

MINISFORUM（ミニスフォーラム）から、手のひらに収まるRyzen 7搭載のデスクトップPCが登場した。外観とベンチマークテストの結果をお届けする。

(2023/8/23)

メルマガ配信で起きた失敗　3位「件名の誤字」、2位「登録・更新忘れ」、1位は？

メール配信システムを提供するベンチマークジャパン（東京都千代田区）は、「メール配信業務における失敗談の調査」を実施した。その結果、最も多い失敗は「表示エラーや文字化け」（55.3%）だった。

(2023/5/31)

カプコン、「STREET FIGHTER 6ベンチマーク」を公開

カプコンは、同社最新作「STREET FIGHTER 6」の動作を確認できる「STREET FIGHTER 6ベンチマークツール」を公開した。

(2023/5/30)

1兆のトークンに対して約150億のパラメーターモデルを機械学習：コーディング用大規模言語モデル「StarCoder」とは　何がすごいのか

AI開発向けのツールを提供しているベンチャー企業Hugging Faceは、2023年5月4日（米国時間）、コーディング用大規模言語モデル（LLM）の「StarCoder」を一般公開。ベンチマークによる評価やデータセットなども併せて公開した。

(2023/5/25)

AI・機械学習のデータセット辞典：GLUE：英語用の一般言語理解評価ベンチマーク

データセット「GLUE」について説明。英語で自然言語処理モデルの性能を評価するための標準ベンチマーク。英語文法の正しさ判定などの9つのタスク（CoLA／SST-2／MRPC／STS-B／QQP／MNLI／QNLI／RTE／WNLI）に対応するデータセットのコレクション。

(2023/4/5)

CAE最前線：光学シミュレーションが真価を発揮する計算環境はワークステーションにあり

自動車の内装やランプ類の設計において自動車業界で広く採用されている3次元光学解析ソフトウェア「Ansys Speos」。ワークステーションによって計算速度がどの程度向上するのか、デル・テクノロジーズのワークステーション製品「Dell Precisionシリーズ」を用いてベンチマークテストを実施した。その結果をレポートする。

(2023/3/22)

人工知能ニュース：NISTの顔認証ベンチマークテストで世界1位の評価を獲得

パナソニックコネクトの顔認証技術が、NISTの顔認証ベンチマークテストで世界1位の評価を獲得した。経年変化や照明変動、顔向きの変化がある環境でも、高精度に顔認証できる点が評価された。

(2022/12/26)

Apple、Google、Mozillaがブラウザベンチマーク「Speedometer 3」で協力

Apple、Google、MozillaがWebブラウザベンチーマーク「Speedometer 3」の開発で協力。完成すれば、Safari、Chrome、Firefoxを同じ条件で比較できることになる。

(2022/12/17)

MVNO・サブブランドの顧客満足度ランキング　3位「OCNモバイルONE」、2位「mineo」、1位は？

NTT コムオンライン・マーケティング・ソリューションは、モバイル通信サービスのMVNO・サブブランド業界を対象に顧客ロイヤルティを測る指標「NPSベンチマーク」についての調査を実施し、結果を発表した。

(2022/11/29)

MVNO／サブブランドの満足度調査、トップは「IIJmio」　評価ポイントは？

NTTコムオンライン・マーケティング・ソリューションは、MVNO／サブブランド業界を対象とした「NPSベンチマーク調査2022MVNO・サブブランド部門」の結果を発表。最もNPSが高いのは「IIJmio」となった。

(2022/11/16)

より快適なCAE環境を実現するには：最新ワークステーションで「Ansys Discovery」のパフォーマンスを徹底検証

設計者向けリアルタイムシミュレーション環境として構想設計や初期設計の現場で活用が進む「Ansys Discovery」。今回、デル・テクノロジーズのワークステーション製品「Dell Precisionシリーズ」を用いてベンチマークテストを実施した。その結果をレポートする。

(2022/9/26)

iPhone 14 Proに搭載「A16 Bionic」の性能は？　ベンチマーク結果が投稿される

米Appleが9月7日（現地時間）に発表した、「iPhone 14 Pro」「iPhone 14 Pro Max」について、ベンチマークアプリ「Geekbench 5」を使って計測したスコアの結果が投稿されている。

(2022/9/14)

最近のノートPCは「電源設定」がパフォーマンスに影響する？　ThinkPad X1 Carbon Gen 10で確かめてみた

先日、レノボ・ジャパンの「ThinkPad X1 Carbon Gen 10」をレビューした際に、ベンチマークテストの一部スコアが思ったほど出なかった。「もしかして、電源設定のせいか？」と思った筆者は、電源設定を変えてテストを実施してみることにした。

(2022/8/9)

「ThinkPad X1 Carbon Gen 10」を試して分かった！　パワーアップしている点と気になる点

レノボ・ジャパンの「ThinkPad X1 Carbon Gen 10」は、フラグシップノートPC「ThinkPad X1 Carbon」の記念すべき第10世代だ。Gen 9（第9世代）と見た目は変わっていないものの、最新の第12世代Coreプロセッサを搭載してパワーアップしている。Core i5-1240Pを搭載するモデルの実力をベンチマークテストでチェックしてみよう。

(2022/7/21)

M2プロセッサ搭載MacBook Airのベンチマーク結果をM1 Macと比べてみた

「Geekbench 5」を使用した「MacBook Air (M2, 2022)」のベンチマーク計測データが投稿されていたので、M1搭載Macと比較してみた。

(2022/7/11)

他社も含めスコアが著しく向上：MLPerfベンチマーク、Googleが4つで最高スコアを記録

Googleは、機械学習の業界標準ベンチマーク「MLPerf」の最終ラウンドにおいて、全8個のベンチマークのうち4個で最高スコアを達成した。

(2022/7/11)

テクニカルライターの日常業務で検証画像加工も難なくこなすノートPC「VersaPro UltraLite タイプVC」の実力は

ビジネスPC「VersaPro UltraLite タイプVC」の新モデルは、CPUの刷新によってどれほどの性能を発揮できるようになったのか。ベンチマークテストの結果や、テクニカルライターが実際に外出先で作業して実感した印象は。

(2022/6/24)

M2搭載13インチMacBook Pro、GPUは先代M1の4割増し　ベンチマークデータ公開

「Geekbench 5」を使用した「MacBook Pro (13-inch, M2, 2022)」のベンチマークデータが公開された。

(2022/6/16)

Google、文章から画像を生成するAI「Imagen」　「DALL-E 2より好まれる」

Google Researchは、文章から画像を生成する拡散モデル「Imagen」を発表した。独自ベンチマークではOpneAIの「DALL-E 2」よりも人間に好まれる結果が出たとしている。

(2022/5/25)

MLPerfの推論スコア：新興企業Syntiant、tinyMLベンチマークで圧勝

エンジニアリングコンソーシアムのMLCommonsが最近、機械学習の業界標準ベンチマーク「MLPerf」の推論（Inference）ラウンドのスコア結果を発表した。MLPerf Tinyでは、米国の新興企業Syntiantが、キーワードスポッティングのレイテンシとエネルギー消費量のベンチマークでトップの座を獲得している。一方NVIDIAとQualcommは、エッジ／データセンターのカテゴリーにおいて再び激しい争いを繰り広げた。

(2022/5/6)

今日のリサーチ：UX統合を妨げているのは「サイロ化」　9割の日本企業が課題に――MuleSoft調査

Salesforce傘下のMuleSoftが「2022年版接続性ベンチマークレポート」を発表しました。

(2022/3/30)

ProjectM、使い勝手を改善したベンチ台「ATX オープンフレーム・ホワイトエディション改」

アユートは、ATXマザーボードに対応したオープンフレームベンチ台「ATX オープンフレーム・ホワイトエディション改」を発売する。

(2022/3/15)

M1 Ultra搭載Mac Studioの性能、RyzenやRadeonだとどのあたり？

M1 MaxとM1 Ultraを搭載したMac Studioの、Geekbench 5ベンチマークの結果が公開されている。