Macで外付けGPUが使える「TinyGPU」をRTX 5060 Tiで検証 実用性と浮き彫りになった課題(4/4 ページ)
Apple Silicon MacでNVIDIA製GPUを動かしCUDA環境を実現する「TinyGPU」を試してみた。高いセキュリティを維持したまま動作する画期的な新技術の導入手順から、最新GPUを用いた検証、現時点の課題まで解説する。
動作検証と所感
導入が完了したので、実際の動作検証に移ろう。利用にあたっては、TinyGPU.appを起動した状態で、tinygradディレクトリに移動し、NVIDIAバックエンドを指定する環境変数DEV=NVを付与してコマンドを実行する。
```shell
cd ~/tinygrad
DEV=NV python3 -m tinygrad.llm
```
実行するとDockerコンテナの作成とデフォルトモデル(Llama 3.2 1B Instruct)のロードが始まり、完了すると「>>>」プロンプトが返ってくる。
今回は導入に続いて、下記コマンドを実行してベンチマークを計測してみた。結果は以下の通りだ。
```shell
cd ~/tinygrad
DEV=NV python3 -m tinygrad.llm --benchmark 32
```
| フェーズ | 該当トークン | 生成時間 | スループット |
|---|---|---|---|
| ウォームアップ | 1トークン目 | 約5,011ms | 毎秒0.20 tok |
| ウォームアップ | 2トークン目 | 約2,009ms | 毎秒0.50 tok |
| ウォームアップ | 3トークン目 | 約480ms | 毎秒2.09 tok |
| 定常 | 4トークン目以降 | 約70ms | 毎秒14.3 tok |
まず確認できたのは、DEV=NVの指定により、外部GPUが実際に計算処理を担っているという事実だ。「動く」ことは確認できたが、そのパフォーマンスの中身を分析すると、現時点での課題が浮き彫りになる。
特筆すべきは、生成時のメモリスループットだ。実測では毎秒約15GBと表示されているが、RTX 5060 Tiの理論帯域は毎秒448GBに達する。
つまり、現時点ではGPUが持つポテンシャルのわずか3%程度しか引き出せていないことになる。
なぜ、これほどの乖離(かいり)が生まれるのか。その原因を考察すると、大きく2つのボトルネックが浮かび上がる。
1つは、インタフェースのレイテンシだ。自己回帰的なトークン生成では、1トークンごとに多数の小さなカーネルを起動する必要がある。
今回のThunderbolt 5接続(PCIe 4.0 x4制限)では、カーネルの起動と同期のたびに外部接続を往復することになり、その通信レイテンシが演算性能を完全に食いつぶしている可能性がある。
もう1つは、ソフトウェア側の最適化不足だ。tinygradのNVIDIAバックエンドが生成するカーネル自体の効率が出ていない可能性が高い。
これを確認するため、以下のコマンドでカーネルの自動探索(JITBEAM=2)を有効にした検証も試みた。
```shell
DEV=NV JITBEAM=2 python3 benchmarks/benchmark_llama.py
```
しかし、この探索プロセス自体が24時間かかっても終了せず、さらにはOSごとフリーズするといった不安定な挙動に見舞われたため、最適化後の真の数値を計測するには至らなかった。
また、初動の3トークンで発生する「ウォームアップ」の重さも無視できない。
1トークン目に約5秒かかるのは、JITコンパイルに伴う初回のみのコストだが、短いプロンプトを繰り返す対話用途では大きなストレスとなるだろう。
まとめ
正直に言えば、TinyGPUはまだ「常用できる」段階にはない。動作は非常に不安定で、1Bクラスの軽量モデルですら毎秒14トークン程度にとどまっており、実用的な推論性能が出ているとは言い難いのが現状だ。
しかし、Appleから正式に認証を受け、SIPを有効にしたまま外部GPUを計算資源として扱えるようになったという「枠組み」の達成は、MacにおけるAI開発の歴史において極めて大きな前進だ。
かつてIntel MacでeGPUがたどった道のように、このTinyGPUもまた、ソフトウェアのアップデートを通じて実用的なツールへと育っていくことを期待せずにはいられない。
Apple Silicon MacでローカルAIの限界を追求し、CUDAエコシステムとの橋渡しを求めるユーザーにとって、この動向は引き続き追いかける価値があるといえよう。
関連記事
2台のMac StudioをThunderbolt 5で連結! 計128GBメモリ環境と分散推論「exo」でLLMを爆速化してみた
複数デバイスを束ねてLLMを動かす「exo」を用い、Mac Studio 2台によるクラスタを構築。macOS Tahoeで解禁されたRDMAとTensor並列を組み合わせ、120B級モデルの生成速度を1.36倍に向上させた検証結果と導入手順を紹介する。自作PCを売却して「Mac Studio」へ ローカルLLMサーバ移行で得られた驚きの“ワッパ”と安心感
クラウドAIの制約を打破する「ローカルLLM」。自作PCからM4 Max搭載Mac Studioへ環境を刷新した筆者が、応答速度や驚異の低消費電力を徹底検証する。ついにOCuLink&USB4 Version 2.0(Thunderbolt 5)両対応のeGPUドック「Minisforum DEG2」を試す
MinisforumのeGPUドック「DEG2」は、Thunderbolt 5とOCuLinkに両対応。豊富なポートやM.2スロットを備え、RTX 5060 Ti接続で最新ゲームやAI性能が劇的に向上。ミニPCを最強環境へ変える万能ドックの実力を探る。Macの容量不足をThunderbolt 5で解決! 80Gbps対応SSDケース「D1 SSD Pro」で爆速ローカルLLM環境を作る
Mac StudioでローカルAIの運用をしていたところ、ストレージ不足に悩むようになった筆者。そこにThunderbolt 5接続SSDケース「TerraMaster D1 SSD Pro」をレビューする機会が舞い込んで来た。このSSDケースは、筆者の悩みを解消してくれるのだろうか……?ビジネスPCみたいな14型ボディーにRTX 5060とRyzen AIを詰め込んだ“本気”ゲーミングノートPC「ASUS TUF Gaming A14 (2026)」を試す
1.46kgの軽量ボディーに、Ryzen AI 9 465とRTX 5060を搭載したゲーミングノートPC「TUF Gaming A14 (2026)」を徹底する。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.