「読んde!!ココVer.11」活用のススメ〜データ再利用にはPDFテキスト化がベスト〜(3/3 ページ)
ScanSnap「fi-5110EOX3」には、エー・アイ・ソフトの「読んde!!ココVer.11体験版」が付属している。OCRソフトというと、「認識率が甘く、あまり有用ではない」というイメージを持つ人もいるだろう。しかしそれはOCRソフトに全てを任せようとするからであり、活用の仕方次第では非常に有効なツールとなるのである。
OCRソフトの認識精度を鍛えろ!
ところで、インストール直後の読んde!!ココの認識精度は、まだまだであることは否定できない。だからといって、その結果を見て落胆してしまうのは早計だ。なぜなら認識精度は、使い続けることによって向上していくからである。
日本語OCRソフトの歴史は、認識率との戦いと言っても過言ではない。英語のようにアルファベット26文字の大文字/小文字と記号というシンプルな組み合わせではなく、50音の平仮名、片仮名と漢字という複雑な組み合わせを認識させるのは非常に難しいのだ。そのため、日本語OCRソフトに「使えない」というレッテルを貼ったまま、見向きもしないユーザーも少なからずいる。
だがこれは、OCRソフトに限ったことではない。程度の差こそあれ、日本語IMEや翻訳ソフトなどにも当てはまる。例えば、優秀な変換精度で知られる日本語IMEでさえ誤変換することがある。手書きパッドによる文字認識機能などを見れば、OCRソフトのように複数の文字を認識する難しさが分かっていただけるだろう。
ちなみに読んde!!ココは、30種類にもなる専門辞書を持っており、標準では全ての辞書がOCR処理時に使用される。まず、これらの専門辞書のうち、自分が利用しない分野の専門辞書のチェックを外してしまうとよい。
使わない分野の専門辞書を外すのも認識率向上には有効だ
また、専門辞書以外にも、ユーザー用の辞書として、誤認識を修正した正しい文字を覚えさせる「認識辞書」が用意されている。この機能は、誤認識された文字を選択し、右クリックメニューから「認識辞書の保守」を選択することで呼び出せる。認識精度を向上させるには、この作業が重要なのだ。この辞書に誤認識された文字を追加していくことにより、認識精度が高くなる。
スキャナで読み取ったデータを繰り返し認識させるだけでは、この辞書は鍛えられない。誤認識された文字を積極的に覚えさせることで、認識精度を向上させていくことができるようになるのである。
読んde!!ココには、Office(Word、Excel、PowerPoint)やAcrobat 7.0 Standard日本語版、電子メールソフトなどとの連携機能があるが、これらは読んde!!ココが十分な認識精度を持つようになってから利用すべき機能であり、インストール直後から便利に使えるわけではない。
ユーザーが辞書を鍛えるという作業が必須であり、その手間を惜しんではいけない。手間をかけてソフトを育てた結果、他人が持っていない非常に強力なツールへと変貌するのだから。
また、ユーザー数が増えればソフトウェアベンダーへのフィードバックが増え、ソフト自体も進化していく。日本語OCRソフトの認識精度がもっと向上すれば、非常に強力なビジネスツールとなり、使い道は限りなく広がる。ScanSnapをより有効に活用したいのであれば、読んde!!ココの製品版を購入し、手間を惜しまずに辞書を鍛えてScanSnapを“さらに使えるツール”へと育て上げるのはいかがだろうか。
関連記事
- オフィスのペーパーレス化をさらに推進。e-文書法対応の新モデルScanSnap「fi-5110EOX3」登場
- PFU、e-文書法に対応したコンパクトドキュメントスキャナの新モデル発売
- エー・アイ、文字認識精度を大きく向上させたOCRソフト「読んde!!ココVer.11」
- 使い勝手の向上が図られたパーソナルドキュメントスキャナ――fi-5110EOX2
- 向き補正・高圧縮でさらに成熟のドキュメントスキャナ――ScanSnap fi-5110EOX
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.