雲紙舎、底本一冊から高精度なテキストデータ作成サービスを開始
雲紙舎が運営する法人向けスキャニングサービス「スキャン専科」で、OCRと手作業を組み合わせることで底本一冊から高精度なテキストデータを作成できるOCRテキスト化サービスがスタート。
雲紙舎は、法人向けスキャニングサービス「スキャン専科」で2013年12月20日から、テキストデータがなくても底本一冊から高精度なテキストデータを作成できるOCRテキスト化サービスを開始した。
スキャン専科のOCRテキスト化サービスは、OCRと手作業を組み合わせて誤変換の防止を実現したもの。OCRによるテキストデータ置き換えの精度は95%程度だが、同サービスではOCRで抜き出したテキストデータをスタッフが1ページずつ確認し、誤変換を修正。これにより、高精度のテキストデータが作成できるという。さらに、オプションとして図をスキャンし、画像データとして抜き出すことも可能だ。
サービスプランは3種類で、まず「レイアウト設定OCR処理」では段組みや横書き・縦書きの読み込み部分を手動で設定することにより、OCR処理時の誤認識を回避。ノンブルやページ上部などにある章タイトルの省略もできる。料金例は、700文字400ページの文庫本で40円×400ページ=1万6000円。1500文字2段組み余白なし400ページ辞書タイプで50円×400ページ=2万円。
「スタッフによる誤変換チェックサービス付き」は、OCR処理後に最低1回はスタッフが全ページ目視確認を実施。誤変換があれば手動で修正を行う。料金例は、1ページの文字数が600文字の場合は120円/ページ、1ページの文字数が1200文字の場合は240円/ページ。
「スタッフによる誤変換2重チェックサービス付き」は、上記の誤変換チェックサービスで修正した高精度のテキスト文章について、チェック担当者を代えて再度全ページ目視で確認するプランだ。料金例は、500文字300ページ文庫本の場合が120円×300ページ×1.4倍=5万400円。1500文字2段組み余白なし600ページ辞書タイプの場合が300円×1.3×600ページ×1.4倍=3万27600円となる。
なお、上記3種類のプランはOCR処理の料金で、併せてスキャン料金も必要となる。納品形式はpdf/txt/docで、対応言語は日本語と英語のみ。底本内の図をjpgやpngなどでイメージデータ化するオプションは1カ所あたり100円だ。
関連記事
- クラウドソーシングを利用してより迅速に読みたい人の元へ――「アクセシブルな電子書籍製作実験プロジェクト」始動
社会福祉法人日本点字図書館が、視覚障害など読むことに障害のある人々が読みたい本をより早く読めるよう、クラウドソーシングとWeb上のオープン・コミュニティーを活用したアクセシブルな電子書籍製作実験プロジェクトを開始する。 - シリーズ待望! PFUの非破壊ドキュメントスキャナ「ScanSnap SV600」を試す
PFUから登場した“裁断せずに”スキャンできるドキュメントスキャナ「ScanSnap SV600」。注目を集めるこの製品を試した。 - 裁断せずに自炊したい!! 「ScanSnap SV600」を試してみた
自炊で裁断する必要がなくなったら、図書館やコミックレンタルで借りてきた書籍も自炊できてしまう……? はたして「非破壊自炊」は自炊の常識を覆すのか。iX500との画質比較も。 - フランス国立図書館、年間7万冊をOCRスキャンへ
フランス国立図書館は今後3年間、1年当たり7万冊ペースで書籍のOCRスキャンを行なうことを発表した。 - スキャン代行業者の実力を比較する(後編)
電子書籍の普及に伴って台頭してきた「スキャン代行サービス」。この代行サービスを取り扱う短期連載の第3回は、実際に各業者に発注し、サービスの内容を具体的に検証する「比較編」の後編をお届けする。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.