ITmedia NEWS > 社会とIT >
ITmedia AI+ AI活用のいまが分かる

明治から昭和初期の文書を解読するサービス、凸版印刷が提供へ くずし字対応AI-OCRで

» 2022年11月11日 13時45分 公開
[松浦立樹ITmedia]

 凸版印刷は11月11日、明治期から昭和初期(以下、近代)の手書き文字に対応したAI-OCRを開発したと発表した。同社提供の江戸時代のくずし字を対象にした古文書解読サービス「ふみのは」のAI-OCRを近代の多様な筆跡の手書き文字にまで対応範囲を拡張させたもの。11月から実証実験を行い、2023年4月から正式サービスを開始する予定。

近代手書き文字AI-OCRの解読例

 凸版印刷によると、近代の手書き文字は、書き手によるくずし方のバラつきが大きいという。原因は筆記用具の多様化や片仮名語の混在、旧字旧仮名遣い表記などがあるためで、解読は非常に困難としている。今回開発したAI-OCRではこれに対応するため、さまざまなパターンの文字をAIに学習させ、文字の解読精度を向上させた。

近代手書き文書の例

 近代のくずし字を多く含む手書きの資料は全国に大量に残存している。公文書や企業経営文書、業務日誌、書簡など多岐にわたり、貴重な情報が記されたものも多いという。手書きの謄本類を取り扱う業務では、これらの資料を日常的に解読しているが、専門家にとっても難易度が高い業務で、実用レベルのOCR技術も開発されていなかった。

近代手書き資料の難読文字の例

 この課題を解決にするため、凸版印刷は神戸大学経済経営研究所附属企業資料総合センターと三井文庫(東京都中野区)との共同研究を実施。学術研究や業務の効率化を行うため、今回のAI-OCR技術を独自に開発した。

 地方自治体や教育機関、企業などが持つ難読資料の解読や、難読資料の利活用するための検索機能付きデータベースの構築などを補助するツールとしての利用を想定。23年4月にサービス提供を開始する。サービス開始初年度は売り上げ2億円、25年度には売り上げ17億円を目指す。

サービス展開のイメージ

Copyright © ITmedia, Inc. All Rights Reserved.