AIとOCRで、古典資料に書かれた「くずし字」を判読可能に――研究者たちの挑戦：古典研究者の助けに

くずし字で書かれた古典のテキスト化に、ディープラーニングを活用したOCRシステムを利用しようという動きがある。17～19世紀の書物のラベル付きデータセットを使ったという、その中身とは。

» 2019年05月27日 12時30分公開

[ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

　「古い巻物などの資料に書かれた文章が、日本語のはずなのに達筆過ぎて読めない」という経験をしたことはないだろうか。そうした問題に、人工知能（AI）で取り組む動きがある。

　人文学オープンデータ共同利用センター（CODH）の研究者であるタリン・カラーヌワット（Tarin Clanuwat）氏と、国立情報学研究所の北本朝展氏、モントリオールのAI研究機関であるMontreal Institute for Learning Algorithmsのアレックス・ラム（Alex Lamb）氏のチームは、くずし字で書かれた古典のテキスト化に、ディープラーニングを活用したOCR（Optical Character Recognition：光学文字認識）システムを活用している。

古い資料に書かれたくずし字には、中世から近世まで、さまざまな種類があるという。画像は江戸時代、18世紀に制作された『画本虫撰（がほんむしえらみ）』の一葉（画像出典：人文学オープンデータ共同利用センター（CODH））

専門家も解読に苦労する――数千種類ものくずし字を1週間で学習した方法とは

　日本の古典の多くは、「くずし字」と呼ばれる、仮名や漢字を流れるように崩した草書体で書かれている。日本の人文学研究者であっても、くずし字を判読できる人は少ないといわれているそうだ。

#CmsMembersControl .CmsMembersControlIn {width:100%;background:url(https://image.itmedia.co.jp/images/spacer.gif) #DDD;opacity:0.05;filter:progid:DXImageTransform.Microsoft.Alpha(Enabled=1,Style=0,Opacity=5);z-index:1;}

続きを閲覧するには、ブラウザの JavaScript の設定を有効にする必要があります。

AIとOCRで、古典資料に書かれた「くずし字」を判読可能に――研究者たちの挑戦：古典研究者の助けに

専門家も解読に苦労する――数千種類ものくずし字を1週間で学習した方法とは

関連リンク

事例記事ランキング

メールマガジンのお知らせ

企業を変革するビジネス視点のメールマガジンを毎朝配信中!!

アイティメディアからのお知らせ

注目のテーマ

人気記事ランキング