凸版のOCR技術、古典籍の「くずし字」を80％超の精度でテキストデータ化

今夏から、開発したOCR処理技術を使った古典籍のテキストデータ化サービスを試験的に開始する予定。

[eBook USER] PC用表示関連情報

LINE

Hatena

　凸版印刷は7月3日、江戸期以前の古典籍に用いられた「くずし字」を高精度でテキストデータ化するOCR（光学文字認識）技術を開発したと発表した。

『源氏物語』のOCR処理によるテキストデータ化

　この技術は、同社が2013年から提供している「高精度全文テキスト化サービス」のテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせることで実現。

　2014年度に実施した検証実験では、くずし字で記されている書物を80％以上の精度でOCR処理することに成功した。

古典籍のテキストデータ化処理の流れ

　技術開発の背景について凸版印刷は、「近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められているが、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた」と説明している。今回の新たなOCR技術開発により、専門家に依頼した場合と比べて大幅なコスト削減と、大量処理が可能になるとしている。

　同社では、今夏から同OCR処理技術を使った古典籍のテキストデータ化サービスを試験的に開始する予定。

凸版のOCR技術、古典籍の「くずし字」を80％超の精度でテキストデータ化

関連記事

関連リンク