紙の書類をデータ化してテキストデータを抽出したいが、手元にスキャナはなく、スマホアプリだと精度がイマイチ――。そんな時に試してみたいのが、デジカメと「Adobe Acrobat DC」を使う方法だ。
保管コストの削減はもとより、劣化の防止や検索性の向上、再利用の促進などさまざまな利点が認められ、徐々に広がりつつある紙の文書や帳票のデジタルデータ化ですが、用途や目的を考慮せずにむやみにスキャンすることでかえって効率が悪くなったり、作業に手戻りを発生させてしまうことも少なくありません。
また商法や税法で保管が義務付けられている文書の場合、電子帳簿保存法やe-文書法などのルールに則った手順を踏む必要があり、自分の判断でやみくもにデータ化するわけにいかないといった事情もあります。
本連載ではこうした現在の状況を踏まえつつ、文書のデータ化にまつわる情報、さらにはフォーマットであるPDFや変換機器であるスキャナ、保存先となるストレージに至るまで、業務現場と情報システム部門に役立つ知識やTips、活用術を幅広く紹介していきます(著者より)
手持ちの書類をデジタル化し、そこからテキストデータを抽出するには、スキャナを使ってOCR処理を行うのが一般的だ。最近ではスキャナの代わりに、スマホのカメラとスキャナアプリを使う方法もあるが、名刺程度のサイズならまだしも、A4サイズの書類から高い精度のテキストデータを抽出するには、よほどの条件がそろっていなければ、適切な結果は得られない。
もし、スキャナが手元になく、スマホアプリではOCRの精度が低すぎて納得の行く結果が得られない場合に試してみたいのが、手持ちのデジカメで書類を撮影したのち、「Adobe Acrobat DC」でテキスト認識を行う方法だ。
Acrobatにはこれまでのバージョンにもテキスト認識機能が搭載されていたが、新しいAdobe Acrobat DCからはカメラで撮影した画像を取り込んで補正できるようになり、実用性が向上した。この機能をデジカメと組み合わせることで、より精度の高いテキストデータの抽出が可能になるというわけだ。
具体的な手順は、まずデジカメで書類を撮影したのち、Adobe Acrobat DCを起動して「スキャン補正」を選択。撮影済みの画像を選んで補正を行ったのち、「テキスト認識」を実行すれば完了だ。台形補正は自動的にエリアを認識するほか、必要に応じて手動調整もできる。抽出したテキストはPDFに埋め込まれるので、そのままマーカーで線を引いたり、注釈を入れることも可能になる。
実際に試したところ、テキスト認識の精度はスマホアプリとは段違いで、日本語と数字が混じった書類の認識率も高い。台形補正と色補正がまとめて実行されること、またアンドゥ機能がないため、色補正の段階を変えつつテキスト認識を行って精度を比較するのは困難だが、画像を取り込んだ直後にいったんPDFとして保存しておけば、台形補正の前のプロセスから何度でもやり直せる。
今回はデジカメで撮影した画像を使っているが、Windowsタブレットであれば内蔵カメラで撮影するのも1つの方法だ。スキャナが手元にない場合に、A4のビジネス書類であってもほぼ修正の必要がない精度でテキストデータが得られる方法として、知っておくと何かと役に立つだろう。
Copyright © ITmedia, Inc. All Rights Reserved.