テキストだけじゃない? 画像データも理解できる「VLM」(視覚言語モデル)を導入する方法“超”初心者向けローカルAI「gpt-oss」導入ガイド(4)(4/4 ページ)

» 2025年09月29日 12時00分 公開
[Yukito KATOITmedia]
前のページへ 1|2|3|4       

文字認識の精度はどの程度か?駅の看板を元にテストしてみた

 さて、先ほどのラーメンの丼にかかれた文字を、gemma-3-12bは正しく認識できなかった。人であれば難なく読めるものの、筆文字ライクなデザインなので、生成AIモデルでは認識しづらいのかもしれない。

 であれば、文書として記載された文字列であれば正しく認識できるはずだ。そこで筆者が先日、汗だくになりながらたどり着いた土合駅の地下ホームに設置されている看板の写真でテストしてみることにした。

photo 汗だくになりながらたどり着いた、土合駅の地上ホームに掲示されていた駅の説明看板は、果たして正常に認識できるのだろうか……?

 駅のキャッチコピーである「日本一のモグラ駅」にある漢数字の「一」を記号として捉えてしまったが、看板の内容を認識した上で、端的に特徴を捉えていることが分かる。

この写真から読み取れる駅の特徴は以下の通りです。

  • 「ようこそ『日本のモグラ駅』へ」という看板がある:このことから、この駅は地下深くにある、あるいは特徴的な地形に掘られた駅であることが分かります。
  • 距離と時間の詳細な表示:看板には、階段を上るまでの距離(338メートル、462段)や、次の出口までの距離(143メートル、24段)、下りホームの標高(583メートル)など、非常に詳細な情報が記載されています。これは、駅の位置が特殊で、利用者に注意を促す必要があることを示唆しています。
  • 「足元にご注意」という注意書き:地下深くにあるため、足元が暗く、滑りやすいなどの危険があると考えられます。
  • 看板の設置場所:看板は階段の入り口付近に設置されており、利用者が階段を上る前に情報を確認できるように工夫されています。

これらの特徴から、この駅は地下深く、あるいは山間部など特殊な地形にあるローカル線駅である可能性が高いです。また、そのユニークさから「日本のモグラ駅」という愛称で呼ばれているようです。

photo 漢数字の「一」を記号として認識しているようだが、それ以外は問題なく認識できていることが分かった

 写真に写った文字列をしっかりと認識しているので、例えば写真撮影が許可されているセミナーで、発表スライドの写真だけ撮影しておき、後でgemma-3-12bを使えばスライド資料の文字起こしに活用できそうだ。

 手書きのメモも写真で撮影すればそのままサクッと文字起こしできそうだ。ただ、筆者のように字が汚い場合は、認識率が下がってしまうかもしれないが……。

画像に対応したモデルでさらに活用の幅を広げてみては

 撮影した写真を外部のクラウドサービスに送信することなく、手元のPC上で処理できるため、データの外部漏えいを気にせずに、画像データを使ったLLMの利用ができる点は非常にうれしいポイントだ。

 テキストデータだけでも活用幅は十分に広かったが、gemma-3-12bなどのように画像に対応したモデルを利用する事でさらに活用の幅を広げられそうだ。テキストデータだけでは物足りないと感じる方は、ぜひ試してみて欲しい。

前のページへ 1|2|3|4       

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

最新トピックスPR

過去記事カレンダー