プロナビ

M4 Maxチップ搭載「16インチMacBook Pro」の実力をチェック 誰に勧めるべきモデルなのか?(4/4 ページ)

» 2024年12月06日 12時30分 公開
[本田雅一ITmedia]
前のページへ 1|2|3|4       

「高性能GPU×共有メモリ」でLLMのパフォーマンスは良好

 今回は「LM Studio」のパフォーマンスも検証した。LM Studioはオープンソースの大規模言語モデル(LLM)を動かすためのアプリで、いわゆるチャット型のAIアシスタントをオンデバイスで実行可能だ。

 ここではLLMの性能テストが直接の目的ではないが、比較的規模が大きく、実用性の高そうなモデルとして「Qwen2.5 Coder 32B Instruct」を使うことにした。評判の高い「Llamma 3.2」向けAIモデル「Qwen2.5」を、プログラマー向けにトレーニングしたものだ。ランタイムの実装はAppleのGPUライブラリ「Metal」を用いており、推論演算に特化したNPU「Neural Engine」は利用しない。

 LM Studioをテストに用いた理由は、M4チップファミリーを搭載する新型MacBook Proが発表されたときに、Apple自身が「このアプリの強力な開発プラットフォームになり得る」と訴求していたからだ。実際にテストをしてみると、Appleがそう主張した理由が分かった。Apple Siliconの広帯域共有メモリがLLMを稼働する際に極めて有利に働くからだ。

 テストに用いたAIモデルは、日本語の質問にはあまり良い品質の回答は得られないが、プログラミングの補助に使うのであればそこそこ使える感じだ。このモデルは320億パラメーターで、容量が17GB以上ある

 このモデルをTUF Gaming A16(FA607PI)で動かすと、全く話にならないほど文字出力が遅い。GPU(GeForce RTX 4070 Laptop)のグラフィックスメモリが8GBしかなく、AIモデルを収納しきれないからだ。結果としてGPUには一部の処理が割り振られるだけで、大部分(今回であれば95%)がCPUに回されてしまう。

 その点、今回試したM4ファミリーのMacでは、M4チップ以外は共有メモリ内にAIモデルを格納できた。よって、GPUの性能をフルに生かすことも可能だった。結果はグラフの通りだが、「これをローカルで動かす必要があるのか」という議論はさておいて、将来的にローカルAIを実用レベルで動かせそうということはよく分かった。

パフォーマンス LM Studioにおけるトークン処理パフォーマンス

 LLMをローカルで動かす利点として、より長いコンテクストに対応するための文脈を保存するためのメモリをより多く確保しやすいという利点がある。見方を少し変えると、より長いプログラム(コード)を作る際に、過去の指示履歴をより多く覚えておいてくれるということになるので、「プログラミングの補助」としてLLMをローカル稼働させることは一定のメリットがあるかもしれない。ただし、ローカルで動かすLLMがより賢く、本当に使い物になるまでは、もう少し時間がかかるだろう。

 ともあれ、今回のテスト結果を通して外付けGPUで扱いきれないサイズのデータを扱う場合は、Apple Siliconの共有メモリアーキテクチャは有利に働きやすいということがよく分かった。自身が使うアプリごとに状況は異なるが、このことは心に留めておきたい。

相関関係 先ほどのLM Studioの処理パフォーマンスを、Geekbench 6のComputeテストの結果と突き当ててみる。しっかりと相関関係があることを見て取れる

「M4 Maxチップ」がもたらす価値はどこにある?

 先ほど「M4 Proチップのコストパフォーマンスの良さが際立つ」旨を述べたが、もちろんハイエンドのユースケースにおいてM4 Maxチップが有益であることは間違いない

 アプリテストを通して見てみると、一部に思ったほどの差が出ていないように思える部分もあるかもしれないが、かなり極端な処理を行うと、テストでは表に出ない差が出ることもあることは別途把握しておくべきだろう。

 その典型例がメディアエンジンの構成だ。M4 Proチップのメディアエンジンは、ビデオエンコード/デコードエンジンとProResアクセラレータを1基ずつ備えるのに対し、M4 Maxチップではこれらを2基ずつ搭載している。

 単純計算すると、M4 MaxチップはM4 Proチップの2倍の動画処理パフォーマンスを備えていることになる。具体的には、M4 Maxチップでは4K解像度のProResビデオを最大66ストリーム、8K(7680×4320ピクセル)解像度のProResビデオを最大15ストリーム同時処理できるが、M4 Proチップでは4K解像度のProResビデオは最大37ストリーム、8K解像度のProResビデオは最大8ストリームと、同時処理数が半分程度になっている。

 メディアエンジンを完璧に使いこなすApple純正の動画編集アプリ「Final Cut Pro」を使う場合、同時処理能力差は約1.8倍とのことで、上記の性能差とほぼ一致する。このこと自体は先にテストしたDaVinci Resolveでも同様なのだが、アプリの応答速度をトータルで見てみると、そこまで大きな差は出てこない。

 M4 Proチップは研究者、開発者、エンジニア、クリエイティブプロフェッショナルなど、高度な処理能力を必要とするユーザー全般に適している。

 一方、M4 Maxチップは8K動画編集、複雑な3DCGレンダリング、大規模な機械学習モデルの学習など、極めて高負荷な作業を行うプロフェッショナルに最適な選択肢だ。

前のページへ 1|2|3|4       

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー