デル・テクノロジーズの“手のひらスパコン”レビュー 完全プライベートなAI環境を構築してみた

「NVIDIA GB10 Grace Blackwell Superchip」を搭載した“手のひらスパコン”は本当に使えるのか。自宅のデスクに置き、AIコーディング環境を構築してみた。その実力とは。

PR/ITmedia
» 2026年03月12日 10時00分 公開
PR

 AIコーディングエージェントの進化が著しい。プログラマーに代わってコードの生成から修正、テストまで自律的にこなすAIのことを指し、「Claude Code」や「OpenCode」といったターミナルで動作するCLIベースのエージェントがその代表例だ。こうしたエージェントの“頭脳”にはクラウドAPIのLLMを使うのが一般的だが、企業のセキュリティポリシーによってはソースコードや社内文書をクラウドに送信できないケースもある。かといってオンプレミスのGPUサーバを導入するには数百万から数千万円規模の初期投資が必要で、おいそれと手を出せるものではない。

 そんな中で登場したのが、NVIDIAの「DGX Spark」をベースとするデル・テクノロジーズの「Dell Pro Max with GB10」(以下、GB10)だ。150mm四方、重さ約1.3kgの小型筐体に、NVIDIAのデータセンター向けGPUアーキテクチャ「Blackwell」と128GBのユニファイドメモリを詰め込んだ“手のひらサイズのスーパーコンピュータ”だ。

photo デル・テクノロジーズの「Dell Pro Max with GB10」。手のひらに乗る小型スパコン。「Dell PowerEdge サーバ」をほうふつとさせる六角形の網目が印象的

GB10のスペックを押さえる

 GB10の心臓部は「NVIDIA GB10 Grace Blackwell Superchip」だ。ArmベースのCortex-X925×10コアとCortex-A725×10コアからなるCPUに、Blackwellアーキテクチャの第5世代Tensorコアを備えたGPUが統合されている。AI演算性能は最大1PFLOPS(FP4、スパース演算時)をうたう。

 最大の特徴は128GBのLPDDR5Xのユニファイドメモリだろう。CPUとGPUがこのメモリを共有する構成のため、一般的なディスクリートGPUのようにVRAM容量の壁に悩まされない。メモリ帯域幅は273GB/sで、NVIDIAの公称では1台で最大2000億パラメータ、2台を連結すれば最大で4000億パラメータのモデルを推論処理に利用できるとしている。

 ストレージはNVMe SSDで1TB、2TB、4TBを選べる。インタフェースはUSB Type-C(Gen 2x2、DisplayPort Alt Mode対応)が3ポート、HDMI 2.1b、10GbEイーサネット(RJ-45)、さらにConnectX-7 SmartNIC(200Gbps対応)も備える。Wi-Fi 7とBluetooth 5.4も搭載。OSはUbuntu 24.04 LTSベースの「DGX OS」がプリインストールされており、 OSレベルでNVIDIAのGPUドライバやライブラリを個別インストールする必要はなく、開発者は「コンテナをpullして使う」「環境変数を設定する」レベルの作業に集中できるだろう。

photo 左から電源ボタン、電源用のType-Cポート、USB Type-Cポート×3、HDMIポート、10GbE イーサネット、ConnectX-7 SmartNIC

 なお、USBポートが全てType-Cなので、手持ちのキーボードによっては変換アダプターが必要になるかもしれない。初期設定時にマウスやキーボードが接続されていない場合はBluetoothのペアリングモードに入るようになっているため、Bluetoothデバイスを用意しておくと初めから配線の煩わしさがなくなる。

まずはLM Studioで感触をつかむ

 DGX Sparkのセットアップガイドは、「Ollama」と「Open WebUI」を使ったLLM実行方法を案内している。だが、筆者としてはまず「LM Studio」を立ち上げることを勧めたい。コンテキストサイズの変更や、その際のメモリ消費量の変化といった「このマシンでどこまでできるか」を直感的に把握できるからだ。

photo GB10で起動したLM Studioの画面。GUIが洗練されているだけでなく、LLMの読み込みパラメータも簡単にカスタマイズできる《クリックで拡大》

 LM Studioの導入は、公式サイトからLinux Arm64向けのAppImageをダウンロードし、ターミナルでchmodにより実行権限を付与し、--no-sandboxオプションを付けて起動すればよい。GUIが立ち上がれば、Hugging Faceにアップロードされているモデルをアプリ内から一覧できる。好きなモデルをダウンロードしてロードすれば推論を始められる。

GB10でまず使ってみるべきLLMは?

 GB10が実行できる有力なLLMとしては、米OpenAIの「gpt-oss-120b」、中国Alibabaの「Qwen3-Coder-Next」、米NVIDIAの「Nemotron 3 Nano」などが挙げられる(2026年2月時点)。

 gpt-oss-120bはローカルLLMのスタンダードだ。MoE(Mixture-of-Experts)アーキテクチャを採用し、総パラメータ数は約1170億ながらアクティブパラメータは約51億。最大コンテキストサイズである約13万トークンに設定した場合の使用メモリは約70GB。128GBのユニファイドメモリを持つGB10なら余裕で収まる計算だ。gpt-oss-120bが採用するMoEは、パラメータの全てを推論に使うDenseモデルに比べて計算で必要なメモリが少ない。推論速度の多くはメモリの内容を処理ユニットへ送る速度、つまりメモリ帯域幅で決定されるため、MoEの方が高速に推論できる。GB10のような「搭載メモリが大きくメモリ帯域幅はそこそこ」というマシンに向いたアーキテクチャといえる。gpt-oss-120bの性能としては、数学ベンチマークではOpenAIのo3に匹敵するとされ、Apache 2.0ライセンスで商用利用も可能だ。

 同規模で次に注目したいのがQwen3-Coder-Nextだ。gpt-oss-120bと同じMoEを採用して、総パラメータ数は約800億、アクティブパラメータ数30億と、同規模ながら若干小型だ。ベンチマークにもよるが、gpt-oss-120bやこれより規模の大きな「DeepSeek-V3.2」(6850億)、「GLM-4.7」(3580億)の性能を上回るとされる。最大コンテキストサイズは約26万トークンで、その際の使用メモリは約62GB。ライセンスはgpt-ossと同じくApache 2.0で自由度が高い。

 Nemotron 3 Nanoは先の2モデルに比べると一段小型で、近いサイズはgpt-oss-20b。特徴は最大コンテキストサイズで、約104万トークンの巨大コンテキストをサポートする。性能としてはサイズ相応にはなってしまうが、巨大なドキュメントを扱う際には候補の一つに考えたいモデルだ。ライセンスは「NVIDIA Open Model License」で商業利用可能。

vLLMで本番環境を意識する

 LM Studioでモデルの使用感をつかめたら、本格的な推論サーバを意識した構成として「vLLM」も試しておきたい。vLLMはクラウドやオンプレミスのLLM APIのサーバで広く使われるエンジンの一つだ。導入は、NVIDIAが提供するDockerコンテナを使うのが手っ取り早い。導入方法はNVIDIAが公式ドキュメントを提供しているので参照してほしいが、基本的にはdocker pullでコンテナイメージをダウンロードし、docker runでLLMの名称を指定するだけでOKだ。

 gpt-oss-120bを使った際の生成速度をLM StudioとvLLMで比較してみた。LM StudioはTTFT(最初のトークンが出るまでの時間)が約0.8秒、トークン生成速度が約39tokens/s。vLLMはTTFTが観測できなかったものの、生成速度は32〜34tokens/sだった。それぞれその時点での最新バージョンを使った結果であり、バージョンによっても変わると思われるので参考程度に見てほしい。

GB10とノートPCで完全プライベートなAIコーディング環境に

photo ノートPCにインストールしたCLIエージェント「Claude Code」の思考エンジンにGB10に入れたLLMを指定すれば完全にローカルなCLIエージェント環境に。周囲の物と比べてもGB10のコンパクトさが際立つ

 GB10上のLM Studioにさまざまなプロンプトを入力してみるのもいいのだが、LM StudioやvLLMで読み込んだモデルを他のクライアントPCから呼び出せるようにすると用途がさらに広がる。手元のノートPCにインストールしたClaude CodeやOpenCodeの思考エンジンとしてGB10に入れたモデルを指定すれば、完全にローカルなCLIエージェント環境が完成する。機密性の高いソースコードを一切外部に出さずにAIコーディングができるというわけだ。

 スパコンといえば冷却ファンの騒音をイメージする人もいると思うが、GB10については推論中であってもかなり静か。筆者が所持している「GeForce RTX 4090」搭載マシンと比べても静かで、デスク上に置いておいても音が作業を邪魔することはない

 一方で、ストレージが最大でも4TBという点は注意が必要だ。数十GBクラスのモデルをいくつも保存しておくと、意外とあっという間に逼迫(ひっぱく)する。使わなくなったモデルは外部のストレージに退避するか削除するか、こまめに管理しよう。

GB10の立ち位置と、その先

 GB10の強みは2つある。一つは「エッジで実行できるLLMの中では比較的大きなサイズを高速に推論でき、そこにどんな機密情報でも入力可能なこと」。もう一つは「NVIDIAのCUDA環境でモデルをファインチューニングする場合に扱えるメモリが大きいこと」だ。サーバ向けGPUで同等のメモリ容量を確保しようとすれば大きなコストがかかるため、GB10に備わる128GBのユニファイドメモリは価格の割に大きなアドバンテージといえる。

 もちろん、推論速度やLLMのサイズを求めるならクラウドAPIやオンプレミスGPUサーバの方が速くて大規模だ。しかし前者は機密情報の取り扱いに制約が生じ得るし、後者は初期導入コストが大きい。「機密情報をローカルLLMでどれくらいの精度で扱えるのか」をPoC用途に安全に評価・検証するファーストステップとして、GB10は現実的な解の一つだ。

 GB10で検証したワークロードをより高速に、あるいはより多くのユーザーで共有したいとなった場合は、「Dell AI Factory with NVIDIA」というエンタープライズ向けのAI基盤ソリューションが有用だ。 NVIDIA GPUを搭載した「PowerEdge サーバ」とAIに特化した「PowerScaleストレージ」で構成される本格的なオンプレミスAI基盤で、エッジからデータセンターまで包括的にカバーする。GB10はArmベースだが、サーバ環境には、Dockerコンテナベースで拡張すればよいので、GB10で検証した環境が無駄になることはない。

 GB10で「自社にとってローカルAIがどこまで使えるか」を確かめた上で、次のステップとしてDell AI Factory with NVIDIAへスケールアップする──というのは、理にかなった導入パスではないだろうか。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:デル・テクノロジーズ株式会社
アイティメディア営業企画/制作:ITmedia AI+編集部/掲載内容有効期限:2026年3月25日