Evernoteは、文字列を含む画像をアップロードするとサーバ側でOCR処理をするので、テキストでの検索が可能だ。このテキストデータを抽出する方法を紹介しよう。
「Evernote」は、文字列を含む画像をアップロードするとサーバ側でOCR処理をする。それにより、テキストでの検索が可能となっている。任意の語句で検索をすると、画像上の文字列を黄色くハイライト表示するので、文字列をテキストデータとして認識しているのが分かるというわけだ。
逆に言うと、画像からテキストデータを取り出したければ、わざわざOCRソフトを使わなくともEvernoteにアップロードしてOCR処理すればよい。だが、残念ながらOCR処理したテキストデータを画面上で範囲選択してコピーすることはできない。こうした場合、OCRしたノートをエクスポートした後ちょっと加工することで、テキストデータを取り出せる。以下、その手順を紹介しよう。
まず、Evernoteのクライアントソフト上で対象のノートを選択し、メニューから「ファイル」−「エクスポート」を選択。「ENEXフォーマットファイル(.enex)でエクスポート」を選択して実行すると、ローカルに拡張子が.enexというファイルを保存する。これをテキストエディタなどで開くと、画像やタグなどを含むデータをテキストで表示。データの前半は画像のバイナリデータで、後半にOCR処理したテキストデータを含んでいる。これを取り出してメモ帳などに貼れば、再利用も容易になるというわけだ。
難点が2つある。1つはこのテキストデータにXMLのタグを含んでいること。部分的に使用するだけなら必要な文字列だけを手動でピックアップすればよいが、長文ともなると煩わしい。この場合、正規表現で<>で囲んだタグのみを除去してやるか、GUGEN ARKがオンラインで提供している「HTMLタグ除去ツール」などを使って取り除いてやるとよい。
もう1つは、そっくりな文章が何度も繰り返し出てくること。よく見れば分かるのだが、これらはまったく同じ文章というわけではなく、「原縞が」「原稲が」「原絹が」「原積が」と、外見がよく似た文字がすこしずつ違った状態で並んでいる。これは恐らくEvernote内の検索でヒットしやすくするために、OCRで判断が付きにくい文字の候補語全てを埋め込んでいるものと思われる。
従ってこれらのテキストデータを利用するためには、不正解の文字列を除去する作業が必要になる。長文を処理するのはややつらいが、あからさまに間違った文字を1つずつ直していくのに比べ、高い確率で「正解」が含まれているぶん手間が省けるとも言える。このあたりは利用目的にもよるだろう。
なお、必ずしもEvernoteにこだわらないのであれば、Googleドキュメントもお薦めだ。Googleドキュメントでは、アップロードした画像からテキストデータを抽出する機能がある。こちらはXMLタグもなく、文章の重複もないので、すぐにテキストとして再利用できる。とはいえ、OCR認識の傾向が違うことから、一概にGoogleドキュメントの方が優れているとはいえない。両方を試してみて、うまく傾向の違いを見極めたうえで使い分けるとよいだろう。
Copyright © ITmedia, Inc. All Rights Reserved.