テキストだけじゃない? 画像データも理解できる「VLM」(視覚言語モデル)を導入する方法“超”初心者向けローカルAI「gpt-oss」導入ガイド(4)(3/4 ページ)

» 2025年09月29日 12時00分 公開
[Yukito KATOITmedia]

料理を正常に認識できるかチェック

 続いて、筆者が外食した際に撮影した写真をLM Studioに添付し、gemma-3-12bで正常に認識できるか試してみた。

 まずは、近所にある鶏白湯ラーメンを撮影した写真を試してみた。この鶏白湯ラーメンは、泡立ったスープと豊富なトッピングも相まって、麺が見えない状態だ。この状態でラーメンと認識できるのだろうか……?

photo 泡だったスープと、豊富なトッピングも相まって麺が見えないこの写真。Gemma-3-12bはラーメンと認識できるのだろうか

 今回使用したプロンプトでは「この写真には何が写っていますか?」と、プロンプトから一切情報を与えずに回答を生成したところ、下記の通りgemma-3-12bはこの写真の料理を「つけ麺」と認識していることが分かる。

この写真には、つけ麺が写っています。

特に、以下の特徴が見られます。

  • 白いスープ:クリーミーな白色のスープは、おそらく乳化系のつけ麺です。
  • チャーシュー:薄切りになったピンク色のチャーシューが添えられています。
  • 薬味:ネギや芽葱、トマトなどの薬味が乗っています。
  • どんぶりの縁:どんぶりの縁には「もりひろ」という文字が見えます。これはつけ麺店「もりひろ」のようです。

全体的に見て、乳化系のつけ麺で、お店の名前は「もりひろ」であることが分かります。

 ラーメンとは認識しなかったが、スープの色やトッピングから麺が写っていないにもかかわらず、「これはつけ麺である」と近しい回答を生成できた点は驚きだ。

 ただ、丼にかかれた「もりけん」という文字を正常に認識できず、「もりひろ」と回答している。おそらく平仮名かつ、認識できた文字から回答を推論して生成したのではないだろうか。

photo ラーメンとは認識できなかったが、近しい料理である「つけ麺」だと認識できている

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2026年03月12日 更新
  1. 10万円切りMacが17年ぶりに復活! 実機を試して分かったAppleが仕掛ける「MacBook Neo」の実力 (2026年03月10日)
  2. 「MacBook Neo」を試して分かった10万円切りの衝撃! ただの“安いMac”ではなく絶妙な引き算で生まれた1台 (2026年03月10日)
  3. きょう発売の「MacBook Neo」、もうAmazonで割安に (2026年03月11日)
  4. 新型「MacBook Air」はM5搭載で何が変わった? 同じM5の「14インチMacBook Pro」と比べて分かったこと (2026年03月10日)
  5. セールで買った日本HPの約990gノートPC「Pavilion Aero 13-bg」が想像以上に良かったので紹介したい (2026年03月11日)
  6. リュック1つで展示会セミナーの音響セット構築レポ 現場で得た“2.4GHz帯混信地獄”を生き抜く教訓 (2026年03月11日)
  7. 最新Core Ultra X7 358Hの破壊力! 16型OLED搭載で内蔵GPUがディスクリート超え!? Copilot+ PC「Acer Swift 16 AI」レビュー (2026年03月10日)
  8. 出張や通勤で荷物が増えても安心な「ミレー ビジネスリュック EXP NX 20+」が27%オフの1万3865円に (2026年03月10日)
  9. 「iPhone 17e」実機レビュー! 9万9800円で256GB&MagSafe対応 ベーシックモデルの魅力と割り切り (2026年03月09日)
  10. 12機能を凝縮したモニタースタンド型の「Anker 675 USB-C ドッキングステーション」が27%オフの2万3990円に (2026年03月11日)
最新トピックスPR

過去記事カレンダー

2026年