検索
連載

テキストだけじゃない? 画像データも理解できる「VLM」(視覚言語モデル)を導入する方法“超”初心者向けローカルAI「gpt-oss」導入ガイド(4)(3/4 ページ)

本連載ではローカルLLMの導入方法から活用方法に至るまで、「手元にハイエンドPCがあって、生成AIをローカル環境で動かしてみたい」という初心者の方にも分かりやすく連載で解説する。

Share
Tweet
LINE
Hatena

料理を正常に認識できるかチェック

 続いて、筆者が外食した際に撮影した写真をLM Studioに添付し、gemma-3-12bで正常に認識できるか試してみた。

 まずは、近所にある鶏白湯ラーメンを撮影した写真を試してみた。この鶏白湯ラーメンは、泡立ったスープと豊富なトッピングも相まって、麺が見えない状態だ。この状態でラーメンと認識できるのだろうか……?

photo
泡だったスープと、豊富なトッピングも相まって麺が見えないこの写真。Gemma-3-12bはラーメンと認識できるのだろうか

 今回使用したプロンプトでは「この写真には何が写っていますか?」と、プロンプトから一切情報を与えずに回答を生成したところ、下記の通りgemma-3-12bはこの写真の料理を「つけ麺」と認識していることが分かる。

この写真には、つけ麺が写っています。

特に、以下の特徴が見られます。

  • 白いスープ:クリーミーな白色のスープは、おそらく乳化系のつけ麺です。
  • チャーシュー:薄切りになったピンク色のチャーシューが添えられています。
  • 薬味:ネギや芽葱、トマトなどの薬味が乗っています。
  • どんぶりの縁:どんぶりの縁には「もりひろ」という文字が見えます。これはつけ麺店「もりひろ」のようです。

全体的に見て、乳化系のつけ麺で、お店の名前は「もりひろ」であることが分かります。

 ラーメンとは認識しなかったが、スープの色やトッピングから麺が写っていないにもかかわらず、「これはつけ麺である」と近しい回答を生成できた点は驚きだ。

 ただ、丼にかかれた「もりけん」という文字を正常に認識できず、「もりひろ」と回答している。おそらく平仮名かつ、認識できた文字から回答を推論して生成したのではないだろうか。

photo
ラーメンとは認識できなかったが、近しい料理である「つけ麺」だと認識できている

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る