TOPPANホールディングスとグループ会社のTOPPANは4月7日、中世ギリシャ語の写本を解読できるAI-OCR(AIを活用した光学文字認識)エンジンを開発したと発表した。日本語の古文書「くずし字」の解読で培ったAI画像認識技術を転用した。
中世ギリシャ語の写本は、時代や書き手によって字形が異なるうえ、単語の一部が省略されたり現代と異なる綴りが混在したりする。単語間に区切りのない形で文章が続く場合もあり、専門知識のない現代人には判読が困難とされている。ヴァチカン教皇庁図書館が所蔵する約5000点のギリシャ語写本も、コレクション全体に注釈などの付加情報を展開するには中世ギリシャ語を解読できる専門家が長期にわたり作業する必要があり、全体のテキスト化が進まない状況が続いていた。
新エンジンは100万字規模の字形・行データベースを学習データとして用意し、中世ギリシャ語の解読を実現した。TOPPANホールディングス運営の印刷博物館と協力関係にある、ヴァチカン教皇庁図書館が保有する約5000点の写本のうち、既に付加情報を加えた50点と翻刻テキスト(写本の文字を現代の活字に置き換えたもの)をAIに学習させた。専門家による目視確認も組み合わせることで、解読精度の向上と品質担保を両立するとしている。
TOPPANは2015年から、くずし字で書かれた古文書を解読するAI-OCR技術の研究開発を進めてきた。21年には古文書解読・利活用サービス「ふみのは」を、23年にはスマートフォンで古文書を解読できるアプリ「古文書カメラ」を展開している。TOPPANグループはまた、97年からヴァチカン教皇庁図書館と文化継承プロジェクトを複数手掛けており、29年にわたる協力関係も今回の開発につながったとしている。
今後は、ヴァチカン教皇庁図書館のギリシャ語写本の画像やテキストデータを用い、学習データの蓄積や精度改善を重ね、認識精度95%以上の達成を目指す。取り組みの成果は4月25日から東京・文京区の印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でデモンストレーションする。
古文書を解読できるiOSアプリ、凸版印刷が無料配信 手書きや木版のくずし字に対応 解読率は90%
古文書を解読できるスマホアプリ 凸版印刷が開発 くずし字対応AI-OCRを活用
明治から昭和初期の文書を解読するサービス、凸版印刷が提供へ くずし字対応AI-OCRで
凸版印刷、“くずし字”を解読する画像認識AIを開発 研究機関向けに月額7万円から提供
TOPPAN、生成AI活用でシステム開発期間を最大70%短縮Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR