メディア

PDF内のテキストをまとめて書き出したい場合は：ビジネスの悩みを解決するPDFドリル

PDFの中に書かれているテキストを、別の書類に使いたいという場合がある。Adobe Acrobat XIであれば、あらかじめテキストになっているデータはもちろん、画像の中に含まれているデータでも、テキスト認識機能を併用して抽出できてしまうのだ。

» 2012年11月08日 11時00分公開

[kizuki，Business Media 誠]

連載「ビジネスの悩みを解決するPDFドリル」とは

　ビジネスの各シーンで利用するPDFファイル。このドリルを練習して、PDFを上手に活用できれば業務効率が向上し、コストの削減ができるはず！　さらに、ビジネスのいろいろな問題も解決できるかもしれませんよ。

　PDFの中に書かれているテキストを、別の書類に使いたいという場合がある。部分的に取り出すだけであれば範囲を選択して右クリック → コピーをすればよいが、選択範囲が複雑に入り組んでいたり、何ページにもわたるようなときは面倒だ。

　こうした場合は、Adobe Acrobat XIでテキストを丸ごと書きだしてしまえばよい。対象のPDFを表示した状態で「ファイル」→「その他の形式で保存」→「その他のオプション」→「テキスト（プレーン）」を選択すると、PDF内にあるテキストデータが丸ごと書き出される。範囲選択がしにくい個所や、うっかり見落としがちな個所までまとめて書き出せるので、再利用も容易になるというわけだ。

PDFからテキストデータを抽出したい場合、まずはAdobe Acrobat XIで該当のPDFを開く（左）。「ファイル」→「書き出し」→「テキスト」→「テキスト（プレーン）」を選択するとテキストファイルに書き出される。ここまではAdobe Readerでもできる（右）

画像として取り込んだPDFや、文書内の画像の中にある文章もテキスト化できる

　もっとも、これだけなら実はAdobe Readerでも同じことができる。「その他の形式で保存」→「テキスト」を選択すればよいのだ。しかしAdobe Readerでは不可能な、Adobe Acrobat XIにしかできない技が「画像の中のテキストまで保存する」※。対象のPDFが、スキャンした画像データだった場合や、テキスト入りの図などが中に含まれる場合でも、テキスト認識機能を併用して、画像中のテキストデータを抜き出して保存することができるのだ。

※Adobe Acrobat X以前のバージョンでも同様の機能が付いており、画像の中にあるテキスト保存が可能だが、XIではOCR性能が良くなり、精度が上がっている。

　具体的には、「表示」→「ツール」→「テキスト認識」を選択して、ツールパネルウィンドウに表示されるメニューから「このファイル内」をクリックし、対象のPDFの中にある文字をテキストデータに変換。その後、さきほどと同じ手順でテキスト書き出しの処理を実行すると、画像中に含まれていたテキストがファイルに書き出されるというわけだ。

対象のファイルがドキュメントスキャナなどで取り込んだ画像形式のPDFだった場合は、まずテキスト認識処理を実行する。「表示」→「ツール」→「テキスト認識」を選択（左）。右側にツールパネルウィンドウが表示されるので、「このファイル内」をクリック。ダイアログの内容を確認したのち、「OK」を押してテキスト認識を実行する（右）