紙をスキャンしたPDFもWord、Excelに変換──リッチテキストPDF4

配布されたPDFファイルをOfficeソフトのフォーマットに変換するリッチテキストPDF4。今回、OCR機能も搭載し、紙の資料をスキャンして作ったPDFからの変換も可能になった。

» 2007年12月06日 16時15分 公開
[斎藤健二,ITmedia]

 紙の資料をスキャンしてPDFファイルとして客先に送付することも増えてきた。ペーパーレス化にも一役買うPDFだが、「このPDFファイルを編集できないのか?」と感じたことのあるビジネスパーソンも多いだろう。

 アンテナハウスが12月17日に発売する「リッチテキストPDF4」は、PDFファイルを読み込んでWordやExcel、一太郎のファイルに変換してくれるソフトだ。

 今回のバージョンアップで、OCR機能も搭載し、紙をスキャンして画像データとして作られたPDFからWord/Excelなどへ変換することも可能になった。

左が紙をスキャンして作ったPDF。右がそのPDFを読み込んでOCRをかけ、Wordの表として読み込んだもの。元原稿の質によってもOCRの精度は変わるが、概ね変換できていることが分かる

 バージョンアップによる主な変更点は下記のとおりだ。

  • Wordの箇条書きへの対応──これまでPDF内の箇条書きは“文字”となってしまっていたが、今回解析して箇条書きと認識、変換するようになった
  • Wordの段組の精緻化──従来も2段組、3段組のPDFを変換することは可能だったが、今回ユーザーが段組場所を指定することでより的確な変換が可能になった
  • Excelの文字種別の判断──「01、02、03……」という番号は文字列に、「245.34」などは数字に、と文字種別を自動判別できるようになった

 OCR機能を搭載したことで、埋め込みフォントを使い文字コードマッピングが行われていないファイルも変更可能になった。また、従来編集パスワードがかかっているPDFは変換できなかったが、今回ポリシーを変更し、コピー許可があるPDFであれば変換可能としている。

 製品のラインアップは下記の通り。ライト版はドラッグ&ドロップによるPDFからの変換に特化したもの。細かな設定は行えない。コンプリート版はOCR機能の搭載のほか、WordやExcelへの変換ボタンのアドオンが用意されている。

製品 パッケージ版 ダウンロード版
リッチテキストPDF4 ライト なし 5000円
リッチテキストPDF4 スタンダード 1万290円 7350円
リッチテキストPDF4 コンプリート 1万5540円 1万1025円

PDF、ISO標準へ

 Adobe Systemsが目指しているPDFフォーマットのISO標準化も進展している。12月4日、PDF1.7がISO 32000に正式採用されることが可決された。

 アンテナハウスの小林徳滋社長は、「2008年からPDFがISO標準になると見ている。これまで、顧客から『PDFはアドビ製のものが正式で、サードパーティのものは信頼できないのではないか』という話をされることがあった。ISO標準となれば、顧客への説明もスムーズになる」と、今後サードパーティによるPDFの活性化が進むという考えを話した。


関連キーワード

PDF | Word | OCR | Excel


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ