雲紙舎、底本一冊から高精度なテキストデータ作成サービスを開始

雲紙舎が運営する法人向けスキャニングサービス「スキャン専科」で、OCRと手作業を組み合わせることで底本一冊から高精度なテキストデータを作成できるOCRテキスト化サービスがスタート。

» 2014年01月08日 10時47分 公開
[eBook USER]

 雲紙舎は、法人向けスキャニングサービス「スキャン専科」で2013年12月20日から、テキストデータがなくても底本一冊から高精度なテキストデータを作成できるOCRテキスト化サービスを開始した。

 スキャン専科のOCRテキスト化サービスは、OCRと手作業を組み合わせて誤変換の防止を実現したもの。OCRによるテキストデータ置き換えの精度は95%程度だが、同サービスではOCRで抜き出したテキストデータをスタッフが1ページずつ確認し、誤変換を修正。これにより、高精度のテキストデータが作成できるという。さらに、オプションとして図をスキャンし、画像データとして抜き出すことも可能だ。

 サービスプランは3種類で、まず「レイアウト設定OCR処理」では段組みや横書き・縦書きの読み込み部分を手動で設定することにより、OCR処理時の誤認識を回避。ノンブルやページ上部などにある章タイトルの省略もできる。料金例は、700文字400ページの文庫本で40円×400ページ=1万6000円。1500文字2段組み余白なし400ページ辞書タイプで50円×400ページ=2万円。

 「スタッフによる誤変換チェックサービス付き」は、OCR処理後に最低1回はスタッフが全ページ目視確認を実施。誤変換があれば手動で修正を行う。料金例は、1ページの文字数が600文字の場合は120円/ページ、1ページの文字数が1200文字の場合は240円/ページ。

 「スタッフによる誤変換2重チェックサービス付き」は、上記の誤変換チェックサービスで修正した高精度のテキスト文章について、チェック担当者を代えて再度全ページ目視で確認するプランだ。料金例は、500文字300ページ文庫本の場合が120円×300ページ×1.4倍=5万400円。1500文字2段組み余白なし600ページ辞書タイプの場合が300円×1.3×600ページ×1.4倍=3万27600円となる。

 なお、上記3種類のプランはOCR処理の料金で、併せてスキャン料金も必要となる。納品形式はpdf/txt/docで、対応言語は日本語と英語のみ。底本内の図をjpgやpngなどでイメージデータ化するオプションは1カ所あたり100円だ。

Copyright © ITmedia, Inc. All Rights Reserved.