人文学オープンデータ共同利用センター(CODH)は8月30日、古文書に書かれた「くずし字」をAIで解読するスマートフォン(iOS/Android)向け無料アプリ「みを」を公開した。元のくずし字と変換後の文字を比較でき、古文書に慣れてない人の理解を手助けするという。
変換したい資料の写真や、ネットからダウンロードした画像などをアプリで読み込むと、くずし字を変換して元の文章の上に表示する。同じ文字を強調表示する機能や変換後の文章をメモ帳などにコピー&ペーストできる機能などを備える。
AIの学習には、国文学研究資料館の日本古典籍くずし字データセットを基に、CODHが開発したくずし字認識モデル「KuroNet」(クロネット)と、機械学習の精度を競い合うプラットフォーム「Kaggle」(カグル)のくずし字認識コンペティションで1位になったtascj氏の認識モデルを活用している。くずし字は江戸時代のデータを基にしているため、違う時代の資料では精度が低下する可能性があるという。
想定する用途について、CODHは「くずし字が読めない人にとっては、文書にどんな文字が書いてあるかだけでも内容が推測できるようになる。古文書の研究者にとっては短時間で多くの資料の内容を把握するのに役立つ」とした。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR