gemma-3-12bはgpt-oss-20bと違ってテキストデータだけでなく、画像データも扱えるため、例えば写真に写っている物が何かチャットで聞いてみることも可能だ。
とはいえ、独立GPUを搭載していないM4 Mac mini 16GBで果たして快適に動作するのだろうか。
先日、居酒屋で注文したサンマの塩焼きの写真が手元にあったので、M4 Mac miniにgpt-3-12bを読み込んで、「この写真には何が写っていますか?」とプロンプトを実行してみた。結果は以下の通りだ。
結果としては、下記の通り写真の内容をおおよそ理解できていることが確認できた。
- 写真には、グリルされた魚(おそらくスズキ)が写っています。
- 魚:長くて細い形をしており、表面はグリルされて焦げ目がついています。
- お皿:魚は、模様のついた長方形のお皿の上に置かれています。
- 葉:お皿には、緑色の葉(おそらくバナナの葉やトゥガイスイ)が敷かれています。
- 背景:お皿は木製のテーブルの上に置かれています。
残念ながらサンマではなく「おそらくスズキと認識する」「トゥガイスイと聞いたことない、検索しても出てこないワードが出てきている」など少し残念な点もあるものの、非常に雑なプロンプトにもかかわらず、しっかりと画像の中身を認識してくれている。
回答自体も14.5トークン毎秒で出力されており、画像認識においても快適に利用できることが分かった。
今回M4 Mac mini 16GBと、Apple Siliconが搭載されたmacOSデバイスの中で一番安価なモデルを使って試してみた。
gpt-oss-20bのようにパラメータ数が大きいモデルは読み込めないが、gemma-3-12bのように比較的パラメータ数が小さいモデルであれば、難なく利用できることが分かった点は非常に大きい。
ローカルLLMは独立GPUが必須だ、という先入観をもたれがちだが、ユニファイドメモリを搭載した最新のApple Siliconモデルを搭載したmacOSデバイスでもローカルLLMを問題なく利用できる。
今回は詳しく試してはいないが、Windowsデバイスにおいても内蔵GPUのパフォーマンスが一昔前と比べて格段に向上しており、搭載するメモリ量を増やせば、WindowsノートPCでもローカルLLMを十分に利用できることが確認できている。
比較的新しいモデルが必要にはなるが、内蔵GPUのPCでもローカルLLMを楽しめるので、手元のPCにLM Studioをインストールして実際に試してみてはいかがだろうか。
テキストだけじゃない? 画像データも理解できる「VLM」(視覚言語モデル)を導入する方法
「gpt-oss」はチャット機能以外にも活用方法がたくさん? 最新のWeb情報を利用するやり方も伝授
手元にあるゲーミングPCを活用して生成AIを動かす! 無料で使える「LM Studio」のキホンを解説
手元にゲーミングPCがあれば、オフライン環境でも生成AIが利用できるってホント? ローカルLLM(大規模言語モデル)導入を解説
米AMD、RyzenやRadeonで生成AIをローカル実行するハウツーガイドを公開
NVIDIAがPC上のデータを使うAIチャットbotツール「Chat with RTX」公開/AMD製CPUに複数の脆弱性Copyright © ITmedia, Inc. All Rights Reserved.