「exo」というソフトウェアを知っているだろうか。複数のデバイスをネットワークで接続し、まるで1台の大きなマシンのように協調させてLLM(大規模言語モデル)を動かせる、オープンソースのフレームワークだ。
通常、LLMを動かすためには膨大なメモリを搭載した高価なサーバが必要だ。しかしexoを使うと、手元にある複数のデバイスを束ねて、単体では動かせなかった大きなモデルを推論できるようになる。
exoはテンソル並列処理という方式を採用しており、モデルの重みを複数のノードに分散して処理する特徴を持つ。対応するバックエンドはMLXやllama.cppなど複数あり、Apple Siliconを搭載したMacとの親和性が特に高いことが特徴だ。
さらに、OpenAI互換のAPIエンドポイントも備えているため、既存のツールやアプリケーションからもそのままクラスタを利用できるという大きなメリットがある。
今回は16CPU、40GPUのM4 Maxに64GBユニファイドメモリを搭載した「Mac Studio」2台を使った環境を構築してみたので、その一部始終を紹介しよう。
Mac Studioのクラスタ構成に興味を持ったきっかけは2つある。
1つ目は、以前使っていたLLMサーバのスペックだ。Mac Studioに移行する前は、128GBのメモリを搭載したサーバでローカルLLMを動かしていた。Mac Studio 1台のユニファイドメモリは64GBだが、これを2台束ねれば合計128GBのメモリプールを構築でき、以前のサーバと同等のモデルサイズを動かせる環境を実現できると考えたためだ。
2つ目は、Thunderbolt 5ブリッジを使った「RDMA」(Remote Direct Memory Access)のサポートだ。CPUを介さずに直接メモリ間でデータをやりとりできる技術で、TCP/IPベースの通信と比べてレイテンシが大幅に下がり、帯域をより効率的に利用できる仕組みだ。
もともとM4チップを搭載した「Mac mini」が発売された当初、exoとThunderbolt 4を組み合わせれば小さなLLMクラスタを構成できると考えていたものの、TCP/IPでのクラスタ構成はノード間の通信がボトルネックになると考えて二の足を踏んでいた。
そんな中、macOS Tahoe 26.3から、Thunderbolt接続でRDMAを有効化できるようになった。ユニファイドメモリの広い帯域幅を生かしつつ、Thunderbolt 4より高速なThunderbolt 5を搭載したMac Studioであれば、十分なパフォーマンスを発揮すると考え、macOS Tahoe 26.3が出た翌日にApple 丸の内で同じ構成のMac Studioをもう1台購入するに至った。
自作PCを売却して「Mac Studio」へ ローカルLLMサーバ移行で得られた驚きの“ワッパ”と安心感
ついにOCuLink&USB4 Version 2.0(Thunderbolt 5)両対応のeGPUドック「Minisforum DEG2」を試す
フルスペックの新型「Mac Studio」に触れて考える、Appleが提案するM3 Ultraチップの真価
新型「Mac Studio」発表 M3 Ultra/M4 Max搭載、Thunderbolt 5に対応
予想通りだが想像以上! M2 Ultraチップ搭載「Mac Studio」で動画編集が爆発する!Copyright © ITmedia, Inc. All Rights Reserved.