2台のMac StudioをThunderbolt 5で連結！　計128GBメモリ環境と分散推論「exo」でLLMを爆速化してみた（1/4 ページ）

複数デバイスを束ねてLLMを動かす「exo」を用い、Mac Studio 2台によるクラスタを構築。macOS Tahoeで解禁されたRDMAとTensor並列を組み合わせ、120B級モデルの生成速度を1.36倍に向上させた検証結果と導入手順を紹介する。

[Yukito KATO，ITmedia]

　「exo」というソフトウェアを知っているだろうか。複数のデバイスをネットワークで接続し、まるで1台の大きなマシンのように協調させてLLM（大規模言語モデル）を動かせる、オープンソースのフレームワークだ。

　通常、LLMを動かすためには膨大なメモリを搭載した高価なサーバが必要だ。しかしexoを使うと、手元にある複数のデバイスを束ねて、単体では動かせなかった大きなモデルを推論できるようになる。

　exoはテンソル並列処理という方式を採用しており、モデルの重みを複数のノードに分散して処理する特徴を持つ。対応するバックエンドはMLXやllama.cppなど複数あり、Apple Siliconを搭載したMacとの親和性が特に高いことが特徴だ。

　さらに、OpenAI互換のAPIエンドポイントも備えているため、既存のツールやアプリケーションからもそのままクラスタを利用できるという大きなメリットがある。

　今回は16CPU、40GPUのM4 Maxに64GBユニファイドメモリを搭載した「Mac Studio」2台を使った環境を構築してみたので、その一部始終を紹介しよう。

圧巻のMac Studio、2台構成

なぜMac Studioを2台使ってクラスタを組むのか

　Mac Studioのクラスタ構成に興味を持ったきっかけは2つある。

　1つ目は、以前使っていたLLMサーバのスペックだ。Mac Studioに移行する前は、128GBのメモリを搭載したサーバでローカルLLMを動かしていた。Mac Studio 1台のユニファイドメモリは64GBだが、これを2台束ねれば合計128GBのメモリプールを構築でき、以前のサーバと同等のモデルサイズを動かせる環境を実現できると考えたためだ。

→自作PCを売却して「Mac Studio」へ　ローカルLLMサーバ移行で得られた驚きの“ワッパ”と安心感

　2つ目は、Thunderbolt 5ブリッジを使った「RDMA」（Remote Direct Memory Access）のサポートだ。CPUを介さずに直接メモリ間でデータをやりとりできる技術で、TCP/IPベースの通信と比べてレイテンシが大幅に下がり、帯域をより効率的に利用できる仕組みだ。

　もともとM4チップを搭載した「Mac mini」が発売された当初、exoとThunderbolt 4を組み合わせれば小さなLLMクラスタを構成できると考えていたものの、TCP/IPでのクラスタ構成はノード間の通信がボトルネックになると考えて二の足を踏んでいた。

　そんな中、macOS Tahoe 26.3から、Thunderbolt接続でRDMAを有効化できるようになった。ユニファイドメモリの広い帯域幅を生かしつつ、Thunderbolt 4より高速なThunderbolt 5を搭載したMac Studioであれば、十分なパフォーマンスを発揮すると考え、macOS Tahoe 26.3が出た翌日にApple 丸の内で同じ構成のMac Studioをもう1台購入するに至った。

exoの導入手順

　　　　　　 | 次のページへ

自作PCを売却して「Mac Studio」へ　ローカルLLMサーバ移行で得られた驚きの“ワッパ”と安心感
クラウドAIの制約を打破する「ローカルLLM」。自作PCからM4 Max搭載Mac Studioへ環境を刷新した筆者が、応答速度や驚異の低消費電力を徹底検証する。
ついにOCuLink＆USB4 Version 2.0（Thunderbolt 5）両対応のeGPUドック「Minisforum DEG2」を試す
MinisforumのeGPUドック「DEG2」は、Thunderbolt 5とOCuLinkに両対応。豊富なポートやM.2スロットを備え、RTX 5060 Ti接続で最新ゲームやAI性能が劇的に向上。ミニPCを最強環境へ変える万能ドックの実力を探る。
フルスペックの新型「Mac Studio」に触れて考える、Appleが提案するM3 Ultraチップの真価
M3 Ultraチップを搭載した「Mac Studio」が登場したが、気になるのはM4 Maxチップを搭載した製品との用途の違いだ。
新型「Mac Studio」発表　M3 Ultra／M4 Max搭載、Thunderbolt 5に対応
今回の新型で搭載された最新チップと、大容量化されたユニファイドメモリによって、クリエイター用途はもちろんのこと、オンデバイスでの大規模言語モデルが実用的に動作することが期待される。
予想通りだが想像以上！　M2 Ultraチップ搭載「Mac Studio」で動画編集が爆発する！
Appleが、クリエイター向けデスクトップMac「Mac Studio」を発売した。Mac Studioは、現時点におけるApple Siliconの最上位SoC「M2 Ultraチップ」を搭載する構成も選択できる。今回は、同チップを搭載する構成を実際に使ってみよう。

2台のMac StudioをThunderbolt 5で連結！　計128GBメモリ環境と分散推論「exo」でLLMを爆速化してみた（1/4 ページ）

なぜMac Studioを2台使ってクラスタを組むのか

関連記事

記事ランキング

2台のMac StudioをThunderbolt 5で連結！ 計128GBメモリ環境と分散推論「exo」でLLMを爆速化してみた（1/4 ページ）

なぜMac Studioを2台使ってクラスタを組むのか

関連記事

記事ランキング

2台のMac StudioをThunderbolt 5で連結！　計128GBメモリ環境と分散推論「exo」でLLMを爆速化してみた（1/4 ページ）