さて、先ほどのラーメンの丼にかかれた文字を、gemma-3-12bは正しく認識できなかった。人であれば難なく読めるものの、筆文字ライクなデザインなので、生成AIモデルでは認識しづらいのかもしれない。
であれば、文書として記載された文字列であれば正しく認識できるはずだ。そこで筆者が先日、汗だくになりながらたどり着いた土合駅の地下ホームに設置されている看板の写真でテストしてみることにした。
駅のキャッチコピーである「日本一のモグラ駅」にある漢数字の「一」を記号として捉えてしまったが、看板の内容を認識した上で、端的に特徴を捉えていることが分かる。
この写真から読み取れる駅の特徴は以下の通りです。
- 「ようこそ『日本のモグラ駅』へ」という看板がある:このことから、この駅は地下深くにある、あるいは特徴的な地形に掘られた駅であることが分かります。
- 距離と時間の詳細な表示:看板には、階段を上るまでの距離(338メートル、462段)や、次の出口までの距離(143メートル、24段)、下りホームの標高(583メートル)など、非常に詳細な情報が記載されています。これは、駅の位置が特殊で、利用者に注意を促す必要があることを示唆しています。
- 「足元にご注意」という注意書き:地下深くにあるため、足元が暗く、滑りやすいなどの危険があると考えられます。
- 看板の設置場所:看板は階段の入り口付近に設置されており、利用者が階段を上る前に情報を確認できるように工夫されています。
これらの特徴から、この駅は地下深く、あるいは山間部など特殊な地形にあるローカル線駅である可能性が高いです。また、そのユニークさから「日本のモグラ駅」という愛称で呼ばれているようです。
写真に写った文字列をしっかりと認識しているので、例えば写真撮影が許可されているセミナーで、発表スライドの写真だけ撮影しておき、後でgemma-3-12bを使えばスライド資料の文字起こしに活用できそうだ。
手書きのメモも写真で撮影すればそのままサクッと文字起こしできそうだ。ただ、筆者のように字が汚い場合は、認識率が下がってしまうかもしれないが……。
撮影した写真を外部のクラウドサービスに送信することなく、手元のPC上で処理できるため、データの外部漏えいを気にせずに、画像データを使ったLLMの利用ができる点は非常にうれしいポイントだ。
テキストデータだけでも活用幅は十分に広かったが、gemma-3-12bなどのように画像に対応したモデルを利用する事でさらに活用の幅を広げられそうだ。テキストデータだけでは物足りないと感じる方は、ぜひ試してみて欲しい。
「gpt-oss」はチャット機能以外にも活用方法がたくさん? 最新のWeb情報を利用するやり方も伝授
手元にあるゲーミングPCを活用して生成AIを動かす! 無料で使える「LM Studio」のキホンを解説
手元にゲーミングPCがあれば、オフライン環境でも生成AIが利用できるってホント? ローカルLLM(大規模言語モデル)導入を解説
米AMD、RyzenやRadeonで生成AIをローカル実行するハウツーガイドを公開
NVIDIAがPC上のデータを使うAIチャットbotツール「Chat with RTX」公開/AMD製CPUに複数の脆弱性Copyright © ITmedia, Inc. All Rights Reserved.