EvernoteでOCR処理したテキストデータを抽出する:3分LifeHacking
Evernoteは、文字列を含む画像をアップロードするとサーバ側でOCR処理をするので、テキストでの検索が可能だ。このテキストデータを抽出する方法を紹介しよう。
「Evernote」は、文字列を含む画像をアップロードするとサーバ側でOCR処理をする。それにより、テキストでの検索が可能となっている。任意の語句で検索をすると、画像上の文字列を黄色くハイライト表示するので、文字列をテキストデータとして認識しているのが分かるというわけだ。
逆に言うと、画像からテキストデータを取り出したければ、わざわざOCRソフトを使わなくともEvernoteにアップロードしてOCR処理すればよい。だが、残念ながらOCR処理したテキストデータを画面上で範囲選択してコピーすることはできない。こうした場合、OCRしたノートをエクスポートした後ちょっと加工することで、テキストデータを取り出せる。以下、その手順を紹介しよう。
まず、Evernoteのクライアントソフト上で対象のノートを選択し、メニューから「ファイル」−「エクスポート」を選択。「ENEXフォーマットファイル(.enex)でエクスポート」を選択して実行すると、ローカルに拡張子が.enexというファイルを保存する。これをテキストエディタなどで開くと、画像やタグなどを含むデータをテキストで表示。データの前半は画像のバイナリデータで、後半にOCR処理したテキストデータを含んでいる。これを取り出してメモ帳などに貼れば、再利用も容易になるというわけだ。
難点が2つある。1つはこのテキストデータにXMLのタグを含んでいること。部分的に使用するだけなら必要な文字列だけを手動でピックアップすればよいが、長文ともなると煩わしい。この場合、正規表現で<>で囲んだタグのみを除去してやるか、GUGEN ARKがオンラインで提供している「HTMLタグ除去ツール」などを使って取り除いてやるとよい。
もう1つは、そっくりな文章が何度も繰り返し出てくること。よく見れば分かるのだが、これらはまったく同じ文章というわけではなく、「原縞が」「原稲が」「原絹が」「原積が」と、外見がよく似た文字がすこしずつ違った状態で並んでいる。これは恐らくEvernote内の検索でヒットしやすくするために、OCRで判断が付きにくい文字の候補語全てを埋め込んでいるものと思われる。
従ってこれらのテキストデータを利用するためには、不正解の文字列を除去する作業が必要になる。長文を処理するのはややつらいが、あからさまに間違った文字を1つずつ直していくのに比べ、高い確率で「正解」が含まれているぶん手間が省けるとも言える。このあたりは利用目的にもよるだろう。
なお、必ずしもEvernoteにこだわらないのであれば、Googleドキュメントもお薦めだ。Googleドキュメントでは、アップロードした画像からテキストデータを抽出する機能がある。こちらはXMLタグもなく、文章の重複もないので、すぐにテキストとして再利用できる。とはいえ、OCR認識の傾向が違うことから、一概にGoogleドキュメントの方が優れているとはいえない。両方を試してみて、うまく傾向の違いを見極めたうえで使い分けるとよいだろう。
関連記事
- LifeHack(ライフハック)
- モバイルノートではWebブラウザ版のEvernoteを使う
複数のPC間での共有に役に立つEvernoteですが、非力なPCで高機能なクライアントソフトを使うと大変です。特に同期は時間もかかるし、モバイルPCの利点を消してしまう懸念もあります。そこで筆者がオススメしたいのがブラウザ版のEvernoteであります。 - 佐々木正悟流「Evernote整理術」は「インボックス」で集中管理
Evernoteをやってみたはいいが整理できずに放置するパターンに陥っている人もいるはず。大量の情報をEvernoteに入れてどうさばくか――。佐々木正悟流の整理術を紹介します。 - Evernoteの整理術――カタログスタックを作る
Evernoteの使い方について最近「どう整理したらいいか?」と質問を受けることが多くなりました。ですので、ちょっと役立つ簡単な整理基準を紹介しましょう。 - ATOK Padが意外とよかった
「ATOK Pad for iPhone」は、iPhoneの日本語入力を支援するアプリですが、これが意外と便利でした。特にEvernoteやMac OSとの連携機能に注目です。 - iPhoneのATOKは“リボルバータッチ”でバンバン――TwitterやEvernoteと連係も、ジャストシステム
ジャストシステムは、日本語入力システム「ATOK」を組み込んだiPhone用メモアプリ「ATOK Pad for iPhone」を発売。ATOKならではの変換機能のほか「リボルバータッチ入力」や「ダブルトリガーキーボード」などの入力インタフェースを用意した。価格は1200円だが、26日までは900円で提供する。 - Evernoteに「in-boxのまとめ」のススメ
いろんなアプリからEvernoteに情報を集めるようになると、ノートブック単位では不便な時が訪れます。そんな時に便利なのが各アプリのin-boxをまとめるための「in-boxスタック」なのでした。
Copyright © ITmedia, Inc. All Rights Reserved.