続いて、筆者が外食した際に撮影した写真をLM Studioに添付し、gemma-3-12bで正常に認識できるか試してみた。
まずは、近所にある鶏白湯ラーメンを撮影した写真を試してみた。この鶏白湯ラーメンは、泡立ったスープと豊富なトッピングも相まって、麺が見えない状態だ。この状態でラーメンと認識できるのだろうか……?
今回使用したプロンプトでは「この写真には何が写っていますか?」と、プロンプトから一切情報を与えずに回答を生成したところ、下記の通りgemma-3-12bはこの写真の料理を「つけ麺」と認識していることが分かる。
この写真には、つけ麺が写っています。
特に、以下の特徴が見られます。
- 白いスープ:クリーミーな白色のスープは、おそらく乳化系のつけ麺です。
- チャーシュー:薄切りになったピンク色のチャーシューが添えられています。
- 薬味:ネギや芽葱、トマトなどの薬味が乗っています。
- どんぶりの縁:どんぶりの縁には「もりひろ」という文字が見えます。これはつけ麺店「もりひろ」のようです。
全体的に見て、乳化系のつけ麺で、お店の名前は「もりひろ」であることが分かります。
ラーメンとは認識しなかったが、スープの色やトッピングから麺が写っていないにもかかわらず、「これはつけ麺である」と近しい回答を生成できた点は驚きだ。
ただ、丼にかかれた「もりけん」という文字を正常に認識できず、「もりひろ」と回答している。おそらく平仮名かつ、認識できた文字から回答を推論して生成したのではないだろうか。
「gpt-oss」はチャット機能以外にも活用方法がたくさん? 最新のWeb情報を利用するやり方も伝授
手元にあるゲーミングPCを活用して生成AIを動かす! 無料で使える「LM Studio」のキホンを解説
手元にゲーミングPCがあれば、オフライン環境でも生成AIが利用できるってホント? ローカルLLM(大規模言語モデル)導入を解説
米AMD、RyzenやRadeonで生成AIをローカル実行するハウツーガイドを公開
NVIDIAがPC上のデータを使うAIチャットbotツール「Chat with RTX」公開/AMD製CPUに複数の脆弱性Copyright © ITmedia, Inc. All Rights Reserved.