くずし字で書かれた古典のテキスト化に、ディープラーニングを活用したOCRシステムを利用しようという動きがある。17〜19世紀の書物のラベル付きデータセットを使ったという、その中身とは。
この記事は会員限定です。会員登録すると全てご覧いただけます。
「古い巻物などの資料に書かれた文章が、日本語のはずなのに達筆過ぎて読めない」という経験をしたことはないだろうか。そうした問題に、人工知能(AI)で取り組む動きがある。
人文学オープンデータ共同利用センター(CODH)の研究者であるタリン・カラーヌワット(Tarin Clanuwat)氏と、国立情報学研究所の北本朝展氏、モントリオールのAI研究機関であるMontreal Institute for Learning Algorithmsのアレックス・ラム(Alex Lamb)氏のチームは、くずし字で書かれた古典のテキスト化に、ディープラーニングを活用したOCR(Optical Character Recognition:光学文字認識)システムを活用している。
古い資料に書かれたくずし字には、中世から近世まで、さまざまな種類があるという。画像は江戸時代、18世紀に制作された『画本虫撰(がほんむしえらみ)』の一葉(画像出典:人文学オープンデータ共同利用センター(CODH))日本の古典の多くは、「くずし字」と呼ばれる、仮名や漢字を流れるように崩した草書体で書かれている。日本の人文学研究者であっても、くずし字を判読できる人は少ないといわれているそうだ。
Copyright © ITmedia, Inc. All Rights Reserved.