前回までは「gpt-oss-20b」を使ってテキストデータを用いたLLMの活用方法を解説してきた。テキストデータだけでも十分活用できるが、欲を言えば画像や動画、音声なども取り扱えるようにしたいところだろう。
そんな方に朗報だ。LM Studioではテキストデータだけでなく、画像も理解できる視覚言語モデル(VLM:Vision-Language Model)に対応したAIモデルを読み込むことで、さらに活用の幅を広げられる。
残念ながらgpt-oss-20bはVLM対応のモデルではないため、今回の記事ではいったんgpt-oss-20bから離れ、VLM対応のモデルをローカルPC環境で使う方法を確認していこう。
【第1回】手元にゲーミングPCがあれば、オフライン環境でも生成AIが利用できるってホント? ローカルLLM(大規模言語モデル)導入を解説
【第2回】手元にあるゲーミングPCを活用して生成AIを動かす! 無料で使える「LM Studio」のキホンを解説
【第3回】「gpt-oss」はチャット機能以外にも活用方法がたくさん? 最新のWeb情報を利用するやり方も伝授
それでは早速、前回までに紹介してきたLM Studioを使ってVLMを試してみよう。まずは、LM Studioの左側にある虫眼鏡アイコンをクリックし、モデルのダウンロード画面に移動する。
モデルのダウンロード画面が表示されるので、モデル名の検索欄に「gemma」と入力し、Geminiモデルの開発に用いられた研究と技術に基づいてGoogleが作成した「gemma-3-12b」をダウンロードしよう。これは画像データも扱えるモデルだ。
モデルのダウンロードが完了すると、「Downloads」ウィンドウに「モデルを読み込む」ボタンが表示されるので、クリックしてgemma-3-12bを読み込もう。
前回、ユーザーインタフェースの複雑さをパワーユーザーモードに切り替えていたので、モデル読み込み時のパラメーター入力画面が表示されるはずだ。
今回はテストで利用するため、コンテキスト長はデフォルト設定のまま、「モデルを読み込む」ボタンをクリックする。
モデルの読み込みが完了したら、「Create a New Chat」ボタンをクリックし、新規のチャットインタフェースを開こう。
ここまで完了したら準備は完了だ。早速、gemma-3-12bを使って画像認識機能をいろいろと試してみよう。
「gpt-oss」はチャット機能以外にも活用方法がたくさん? 最新のWeb情報を利用するやり方も伝授
手元にあるゲーミングPCを活用して生成AIを動かす! 無料で使える「LM Studio」のキホンを解説
手元にゲーミングPCがあれば、オフライン環境でも生成AIが利用できるってホント? ローカルLLM(大規模言語モデル)導入を解説
米AMD、RyzenやRadeonで生成AIをローカル実行するハウツーガイドを公開
NVIDIAがPC上のデータを使うAIチャットbotツール「Chat with RTX」公開/AMD製CPUに複数の脆弱性Copyright © ITmedia, Inc. All Rights Reserved.