テキストだけじゃない？　画像データも理解できる「VLM」（視覚言語モデル）を導入する方法：“超”初心者向けローカルAI「gpt-oss」導入ガイド（4）（1/4 ページ）

本連載ではローカルLLMの導入方法から活用方法に至るまで、「手元にハイエンドPCがあって、生成AIをローカル環境で動かしてみたい」という初心者の方にも分かりやすく連載で解説する。

[Yukito KATO，ITmedia]

　前回までは「gpt-oss-20b」を使ってテキストデータを用いたLLMの活用方法を解説してきた。テキストデータだけでも十分活用できるが、欲を言えば画像や動画、音声なども取り扱えるようにしたいところだろう。

　そんな方に朗報だ。LM Studioではテキストデータだけでなく、画像も理解できる視覚言語モデル（VLM：Vision-Language Model）に対応したAIモデルを読み込むことで、さらに活用の幅を広げられる。

　残念ながらgpt-oss-20bはVLM対応のモデルではないため、今回の記事ではいったんgpt-oss-20bから離れ、VLM対応のモデルをローカルPC環境で使う方法を確認していこう。

【第1回】手元にゲーミングPCがあれば、オフライン環境でも生成AIが利用できるってホント？　ローカルLLM（大規模言語モデル）導入を解説

【第2回】手元にあるゲーミングPCを活用して生成AIを動かす！　無料で使える「LM Studio」のキホンを解説

【第3回】「gpt-oss」はチャット機能以外にも活用方法がたくさん？　最新のWeb情報を利用するやり方も伝授

LM StudioでVLMを試す

　それでは早速、前回までに紹介してきたLM Studioを使ってVLMを試してみよう。まずは、LM Studioの左側にある虫眼鏡アイコンをクリックし、モデルのダウンロード画面に移動する。

gpt-oss-20b以外のモデルをダウンロードするために、虫眼鏡アイコンをクリックしよう

　モデルのダウンロード画面が表示されるので、モデル名の検索欄に「gemma」と入力し、Geminiモデルの開発に用いられた研究と技術に基づいてGoogleが作成した「gemma-3-12b」をダウンロードしよう。これは画像データも扱えるモデルだ。

Geminiと同じ研究と技術に基づいて作成された、gemma-3-12bをダウンロードしよう

　モデルのダウンロードが完了すると、「Downloads」ウィンドウに「モデルを読み込む」ボタンが表示されるので、クリックしてgemma-3-12bを読み込もう。

モデルのダウンロードが完了したら、「モデルを読み込む」ボタンを必ずクリックしよう

　前回、ユーザーインタフェースの複雑さをパワーユーザーモードに切り替えていたので、モデル読み込み時のパラメーター入力画面が表示されるはずだ。

　今回はテストで利用するため、コンテキスト長はデフォルト設定のまま、「モデルを読み込む」ボタンをクリックする。

モデル読み込み時のパラメーター設定はデフォルトのまま、「モデルを読み込む」ボタンをクリックしよう

　モデルの読み込みが完了したら、「Create a New Chat」ボタンをクリックし、新規のチャットインタフェースを開こう。

モデルの読み込みが完了したら、「Create a New Chat」ボタンをクリックしてチャットを開始しよう

　ここまで完了したら準備は完了だ。早速、gemma-3-12bを使って画像認識機能をいろいろと試してみよう。

gemma-3-12bで画像認識機能を試す

　　　　　　 | 次のページへ

「gpt-oss」はチャット機能以外にも活用方法がたくさん？　最新のWeb情報を利用するやり方も伝授
本連載ではローカルLLMの導入方法から活用方法に至るまで、「手元にハイエンドPCがあって、生成AIをローカル環境で動かしてみたい」という初心者の方にも分かりやすく連載で解説する。
手元にあるゲーミングPCを活用して生成AIを動かす！　無料で使える「LM Studio」のキホンを解説
本連載ではローカルLLMの導入方法から活用方法に至るまで、「手元にハイエンドPCがあって、生成AIをローカル環境で動かしてみたい」という初心者の方にも分かりやすく連載で解説する。
手元にゲーミングPCがあれば、オフライン環境でも生成AIが利用できるってホント？　ローカルLLM（大規模言語モデル）導入を解説
本連載ではローカルLLMの導入方法から活用方法に至るまで、「手元にハイエンドPCがあって、生成AIをローカル環境で動かしてみたい」という初心者の方にも分かりやすく連載で解説する。
米AMD、RyzenやRadeonで生成AIをローカル実行するハウツーガイドを公開
GPTベースのLLM（大規模言語モデル）を使ったAIチャットbotの実行、LLMをローカルでカスタマイズできる検索拡張生成（RAG）の導入、プログラミングにおけるコーディングアシスタントの実行という3つの手順を紹介している。
NVIDIAがPC上のデータを使うAIチャットbotツール「Chat with RTX」公開／AMD製CPUに複数の脆弱性
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、2月11日週を中心に公開された主なニュースを一気にチェックしましょう！

テキストだけじゃない？　画像データも理解できる「VLM」（視覚言語モデル）を導入する方法：“超”初心者向けローカルAI「gpt-oss」導入ガイド（4）（1/4 ページ）

LM StudioでVLMを試す

関連記事

記事ランキング

テキストだけじゃない？ 画像データも理解できる「VLM」（視覚言語モデル）を導入する方法：“超”初心者向けローカルAI「gpt-oss」導入ガイド（4）（1/4 ページ）

LM StudioでVLMを試す

関連記事

記事ランキング

テキストだけじゃない？　画像データも理解できる「VLM」（視覚言語モデル）を導入する方法：“超”初心者向けローカルAI「gpt-oss」導入ガイド（4）（1/4 ページ）