連載
テキストだけじゃない? 画像データも理解できる「VLM」(視覚言語モデル)を導入する方法:“超”初心者向けローカルAI「gpt-oss」導入ガイド(4)(3/4 ページ)
本連載ではローカルLLMの導入方法から活用方法に至るまで、「手元にハイエンドPCがあって、生成AIをローカル環境で動かしてみたい」という初心者の方にも分かりやすく連載で解説する。
料理を正常に認識できるかチェック
続いて、筆者が外食した際に撮影した写真をLM Studioに添付し、gemma-3-12bで正常に認識できるか試してみた。
まずは、近所にある鶏白湯ラーメンを撮影した写真を試してみた。この鶏白湯ラーメンは、泡立ったスープと豊富なトッピングも相まって、麺が見えない状態だ。この状態でラーメンと認識できるのだろうか……?
今回使用したプロンプトでは「この写真には何が写っていますか?」と、プロンプトから一切情報を与えずに回答を生成したところ、下記の通りgemma-3-12bはこの写真の料理を「つけ麺」と認識していることが分かる。
この写真には、つけ麺が写っています。
特に、以下の特徴が見られます。
- 白いスープ:クリーミーな白色のスープは、おそらく乳化系のつけ麺です。
- チャーシュー:薄切りになったピンク色のチャーシューが添えられています。
- 薬味:ネギや芽葱、トマトなどの薬味が乗っています。
- どんぶりの縁:どんぶりの縁には「もりひろ」という文字が見えます。これはつけ麺店「もりひろ」のようです。
全体的に見て、乳化系のつけ麺で、お店の名前は「もりひろ」であることが分かります。
ラーメンとは認識しなかったが、スープの色やトッピングから麺が写っていないにもかかわらず、「これはつけ麺である」と近しい回答を生成できた点は驚きだ。
ただ、丼にかかれた「もりけん」という文字を正常に認識できず、「もりひろ」と回答している。おそらく平仮名かつ、認識できた文字から回答を推論して生成したのではないだろうか。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「gpt-oss」はチャット機能以外にも活用方法がたくさん? 最新のWeb情報を利用するやり方も伝授
本連載ではローカルLLMの導入方法から活用方法に至るまで、「手元にハイエンドPCがあって、生成AIをローカル環境で動かしてみたい」という初心者の方にも分かりやすく連載で解説する。
手元にあるゲーミングPCを活用して生成AIを動かす! 無料で使える「LM Studio」のキホンを解説
本連載ではローカルLLMの導入方法から活用方法に至るまで、「手元にハイエンドPCがあって、生成AIをローカル環境で動かしてみたい」という初心者の方にも分かりやすく連載で解説する。
手元にゲーミングPCがあれば、オフライン環境でも生成AIが利用できるってホント? ローカルLLM(大規模言語モデル)導入を解説
本連載ではローカルLLMの導入方法から活用方法に至るまで、「手元にハイエンドPCがあって、生成AIをローカル環境で動かしてみたい」という初心者の方にも分かりやすく連載で解説する。
米AMD、RyzenやRadeonで生成AIをローカル実行するハウツーガイドを公開
GPTベースのLLM(大規模言語モデル)を使ったAIチャットbotの実行、LLMをローカルでカスタマイズできる検索拡張生成(RAG)の導入、プログラミングにおけるコーディングアシスタントの実行という3つの手順を紹介している。
NVIDIAがPC上のデータを使うAIチャットbotツール「Chat with RTX」公開/AMD製CPUに複数の脆弱性
うっかり見逃していたけれど、ちょっと気になる――そんなニュースを週末に“一気読み”する連載。今回は、2月11日週を中心に公開された主なニュースを一気にチェックしましょう!

