スキャナ不要 カメラを使って紙資料からテキスト抽出するには職場で役立つデジタル化レシピ

紙の書類をデータ化してテキストデータを抽出したいが、手元にスキャナはなく、スマホアプリだと精度がイマイチ――。そんな時に試してみたいのが、デジカメと「Adobe Acrobat DC」を使う方法だ。

» 2015年08月26日 07時00分 公開
[山口真弘ITmedia]

この連載は

 保管コストの削減はもとより、劣化の防止や検索性の向上、再利用の促進などさまざまな利点が認められ、徐々に広がりつつある紙の文書や帳票のデジタルデータ化ですが、用途や目的を考慮せずにむやみにスキャンすることでかえって効率が悪くなったり、作業に手戻りを発生させてしまうことも少なくありません。

 また商法や税法で保管が義務付けられている文書の場合、電子帳簿保存法やe-文書法などのルールに則った手順を踏む必要があり、自分の判断でやみくもにデータ化するわけにいかないといった事情もあります。

 本連載ではこうした現在の状況を踏まえつつ、文書のデータ化にまつわる情報、さらにはフォーマットであるPDFや変換機器であるスキャナ、保存先となるストレージに至るまで、業務現場と情報システム部門に役立つ知識やTips、活用術を幅広く紹介していきます(著者より)


 手持ちの書類をデジタル化し、そこからテキストデータを抽出するには、スキャナを使ってOCR処理を行うのが一般的だ。最近ではスキャナの代わりに、スマホのカメラとスキャナアプリを使う方法もあるが、名刺程度のサイズならまだしも、A4サイズの書類から高い精度のテキストデータを抽出するには、よほどの条件がそろっていなければ、適切な結果は得られない。

 もし、スキャナが手元になく、スマホアプリではOCRの精度が低すぎて納得の行く結果が得られない場合に試してみたいのが、手持ちのデジカメで書類を撮影したのち、「Adobe Acrobat DC」でテキスト認識を行う方法だ。

 Acrobatにはこれまでのバージョンにもテキスト認識機能が搭載されていたが、新しいAdobe Acrobat DCからはカメラで撮影した画像を取り込んで補正できるようになり、実用性が向上した。この機能をデジカメと組み合わせることで、より精度の高いテキストデータの抽出が可能になるというわけだ。

 具体的な手順は、まずデジカメで書類を撮影したのち、Adobe Acrobat DCを起動して「スキャン補正」を選択。撮影済みの画像を選んで補正を行ったのち、「テキスト認識」を実行すれば完了だ。台形補正は自動的にエリアを認識するほか、必要に応じて手動調整もできる。抽出したテキストはPDFに埋め込まれるので、そのままマーカーで線を引いたり、注釈を入れることも可能になる。

Photo まずはカメラで書類を撮影する。今回は手元のデジカメの最高画質となる4608×3456ピクセルで撮影を行っている。撮影時の光量はかなり低め
Photo Adobe Acrobat DCを起動し、「ツール」タブから「スキャン補正」をクリック
Photo 「ファイルを選択」「文書をスキャン」の2つの選択肢が表示される。今回はカメラ画像を用いるので、前者を選んでファイルを選択したのち「開始」をクリック
Photo 書類が表示された。画面上段のツールバーが、スキャン補正機能専用のメニューに切り替わっていることが分かる
Photo 手動で正しい向きに回転させたのち、「補正」から「カメラ画像」を選んで補正を実行する。ちなみに回転は必ずしも手動実行しなくとも、自動補正で正しく回転されることも多い
Photo 輪郭が自動検出される。必要に応じて手動で調整したのち「ページを補正」をクリックして補正を実行する。かなり極端な台形になっていても補正できる
Photo 形状が補正されると同時にレベルの調整も行われる。必要に応じて上段のスライダを動かして濃度を調整してやるとよい
Photo 「テキスト認識」→「このファイル内」を選択
Photo 「テキスト認識」を実行する。必要に応じて事前に「設定」から適切な言語や解像度を選んでおく
Photo 処理が終わり、画面をドラッグするとテキスト部分が認識されていることが分かる。テキストデータはこの時点でPDFに埋め込まれている
Photo 今回試した範囲でもっとも原文に忠実な結果を得られたのがこちら。試した限りでは、補正時にあまりコントラストを強くしすぎないほうが望ましい結果を得られることが多かった

 実際に試したところ、テキスト認識の精度はスマホアプリとは段違いで、日本語と数字が混じった書類の認識率も高い。台形補正と色補正がまとめて実行されること、またアンドゥ機能がないため、色補正の段階を変えつつテキスト認識を行って精度を比較するのは困難だが、画像を取り込んだ直後にいったんPDFとして保存しておけば、台形補正の前のプロセスから何度でもやり直せる。

 今回はデジカメで撮影した画像を使っているが、Windowsタブレットであれば内蔵カメラで撮影するのも1つの方法だ。スキャナが手元にない場合に、A4のビジネス書類であってもほぼ修正の必要がない精度でテキストデータが得られる方法として、知っておくと何かと役に立つだろう。

Copyright © ITmedia, Inc. All Rights Reserved.