AIとOCRで、古典資料に書かれた「くずし字」を判読可能に――研究者たちの挑戦古典研究者の助けに

くずし字で書かれた古典のテキスト化に、ディープラーニングを活用したOCRシステムを利用しようという動きがある。17〜19世紀の書物のラベル付きデータセットを使ったという、その中身とは。

» 2019年05月27日 12時30分 公開
[ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 「古い巻物などの資料に書かれた文章が、日本語のはずなのに達筆過ぎて読めない」という経験をしたことはないだろうか。そうした問題に、人工知能(AI)で取り組む動きがある。

 人文学オープンデータ共同利用センター(CODH)の研究者であるタリン・カラーヌワット(Tarin Clanuwat)氏と、国立情報学研究所の北本朝展氏、モントリオールのAI研究機関であるMontreal Institute for Learning Algorithmsのアレックス・ラム(Alex Lamb)氏のチームは、くずし字で書かれた古典のテキスト化に、ディープラーニングを活用したOCR(Optical Character Recognition:光学文字認識)システムを活用している。

photo 古い資料に書かれたくずし字には、中世から近世まで、さまざまな種類があるという。画像は江戸時代、18世紀に制作された『画本虫撰(がほんむしえらみ)』の一葉(画像出典:人文学オープンデータ共同利用センター(CODH)

専門家も解読に苦労する――数千種類ものくずし字を1週間で学習した方法とは

 日本の古典の多くは、「くずし字」と呼ばれる、仮名や漢字を流れるように崩した草書体で書かれている。日本の人文学研究者であっても、くずし字を判読できる人は少ないといわれているそうだ。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ