検索
ニュース

判読困難な「中世ギリシャ語」を読み取り、TOPPANがAI-OCR開発 日本語の「くずし字」解読技術を活用

TOPPANグループは4月7日、中世ギリシャ語の写本を解読するAI-OCRエンジンを開発したと発表した。くずし字解読で培ったAI画像認識技術を転用し、ヴァチカン教皇庁図書館保有の写本50点と翻刻テキストを学習データに活用。認識精度95%以上を目指す。4月25日から印刷博物館の企画展でデモ公開する。

Share
Tweet
LINE
Hatena

 TOPPANホールディングスとグループ会社のTOPPANは4月7日、中世ギリシャ語の写本を解読できるAI-OCR(AIを活用した光学文字認識)エンジンを開発したと発表した。日本語の古文書「くずし字」の解読で培ったAI画像認識技術を転用した。

 中世ギリシャ語の写本は、時代や書き手によって字形が異なるうえ、単語の一部が省略されたり現代と異なる綴りが混在したりする。単語間に区切りのない形で文章が続く場合もあり、専門知識のない現代人には判読が困難とされている。ヴァチカン教皇庁図書館が所蔵する約5000点のギリシャ語写本も、コレクション全体に注釈などの付加情報を展開するには中世ギリシャ語を解読できる専門家が長期にわたり作業する必要があり、全体のテキスト化が進まない状況が続いていた。

 新エンジンは100万字規模の字形・行データベースを学習データとして用意し、中世ギリシャ語の解読を実現した。TOPPANホールディングス運営の印刷博物館と協力関係にある、ヴァチカン教皇庁図書館が保有する約5000点の写本のうち、既に付加情報を加えた50点と翻刻テキスト(写本の文字を現代の活字に置き換えたもの)をAIに学習させた。専門家による目視確認も組み合わせることで、解読精度の向上と品質担保を両立するとしている。

 TOPPANは2015年から、くずし字で書かれた古文書を解読するAI-OCR技術の研究開発を進めてきた。21年には古文書解読・利活用サービス「ふみのは」を、23年にはスマートフォンで古文書を解読できるアプリ「古文書カメラ」を展開している。TOPPANグループはまた、97年からヴァチカン教皇庁図書館と文化継承プロジェクトを複数手掛けており、29年にわたる協力関係も今回の開発につながったとしている。

 今後は、ヴァチカン教皇庁図書館のギリシャ語写本の画像やテキストデータを用い、学習データの蓄積や精度改善を重ね、認識精度95%以上の達成を目指す。取り組みの成果は4月25日から東京・文京区の印刷博物館で開催される企画展「名著誕生展 ヴァチカン教皇庁図書館III+」でデモンストレーションする。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る