くずし字で書かれた古典のテキスト化に、ディープラーニングを活用したOCRシステムを利用しようという動きがある。17〜19世紀の書物のラベル付きデータセットを使ったという、その中身とは。
この記事は会員限定です。会員登録すると全てご覧いただけます。
「古い巻物などの資料に書かれた文章が、日本語のはずなのに達筆過ぎて読めない」という経験をしたことはないだろうか。そうした問題に、人工知能(AI)で取り組む動きがある。
人文学オープンデータ共同利用センター(CODH)の研究者であるタリン・カラーヌワット(Tarin Clanuwat)氏と、国立情報学研究所の北本朝展氏、モントリオールのAI研究機関であるMontreal Institute for Learning Algorithmsのアレックス・ラム(Alex Lamb)氏のチームは、くずし字で書かれた古典のテキスト化に、ディープラーニングを活用したOCR(Optical Character Recognition:光学文字認識)システムを活用している。
日本の古典の多くは、「くずし字」と呼ばれる、仮名や漢字を流れるように崩した草書体で書かれている。日本の人文学研究者であっても、くずし字を判読できる人は少ないといわれているそうだ。
Copyright © ITmedia, Inc. All Rights Reserved.