AI-OCRで国立国会図書館の資料をテキスト化 約1300万文字のデータセットから開発 その舞台裏に迫る

» 2022年10月26日 10時00分 公開
[PR/ITmedia]
PR

 明治期以降の書籍や雑誌といった「近代活字資料」のテキストデータを生成するために、AIを活用したOCR(光学的文字認識)を新たに開発する――こんな取り組みを国立国会図書館(NDL)が発表した。OCRはデジタル画像を解析し、画像内の文字をテキストデータに変換する技術だ。近代活字資料は書体が現代とは異なるうえ、旧字旧仮名遣いが中心なのでテキストデータ化は容易ではない。

 国立国会図書館からの委託を受けてこの試みに挑戦したのが、AIを使った画像処理技術を開発しているモルフォAIソリューションズ(千代田区)だ。「かなり大変な開発作業になると感じました。しかしAIなら可能かもしれない、実現できれば国立国会図書館ユーザーの利便性を高められると確信していました」――こんな声がAI-OCR開発に携わったメンバーの口から出た。

 そこで開発の舞台裏について、モルフォAIソリューションズのエンジニアたちを取材した。するとAI開発にかける工夫と情熱が見えてきた。

photo AI-OCR開発に携わったメンバー

国立国会図書館の近代活字資料向けOCR「NDLOCR」を開発する

 AI-OCR開発の背景には国立国会図書館の取り組みがある。同館では、所蔵する書籍や雑誌をデジタル化して公開しており、その大量の資料を利用者が検索できるようにOCRを使ったテキストデータ化を進めている。今回モルフォAIソリューションズが受託開発したのは、今後同館がデジタル化する近代活字資料への適用を目的にしたOCR処理プログラム「NDLOCR」だ。

 このNDLOCRの開発要件は、2つの要件を両立するという一般的なOCRよりも厳しいものだった。1つ目は、1ページを2秒以内にテキストデータ化する「処理速度」の要件だ。2つ目は、対象の資料の出版年代や種別ごとに設定した30種類の全区分で、既存のOCRと同等以上の性能でテキストデータ化する「認識精度」の要件だった。

 2021年春から約1年間で完成までこぎ着けるため、モルフォAIソリューションズとグループ企業のモルフォ(千代田区)から開発プロジェクトへの参加希望者を募ってチームを結成し、実際にプロジェクトが動き出した。

既存のOCRは実用に堪えず 高精度のNDLOCRを実現するためにAIを活用

 NDLOCR開発に当たり、国立国会図書館が保有する書籍や雑誌に関する画像データのうち、明治期から昭和期までの約1万7000点をAIの学習データに使った。このうち特に近代活字資料は、現代では使わない旧字旧仮名が使われている他、縦書きと横書きが混在したり、OCRで読み取る必要がないルビが振ってあったりする。そのためビジネス文書向けの一般的なOCRを応用するのは難しい。

photo NDLOCRの対象の資料例(出典:モルフォAIソリューションズのプレスリリース)
photo NDLOCRの開発には、旧字体の認識や複雑なレイアウトへの対応などが必要だった(出典:モルフォAIソリューションズのプレスリリース)
photo モルフォの松尾恒氏(CTO室 シニアリサーチャー)

 「まずは既存のOCRプログラムを試してみましたが、認識精度を見て実用に堪えないと思いました。そしてOCR開発に挑戦してみたいと感じました。AIの学習用データは大量にあるので、着実に進めば『やれる』と確信していました」――こう振り返るのはモルフォの松尾恒氏(CTO室 シニアリサーチャー)だ。


 着実に高精度かつ高速なOCRプログラムを作るため、NDLOCRで実際に処理する工程を細分化して開発する手法を採用した。

  1. 見開き状態の資料画像を入力する
  2. 見開きの真ん中で分割して1ページごとにする
  3. 画像の傾きを補正して正しい向きにする
  4. 文字の位置を把握するためにレイアウト解析で「本文行」を捉える
  5. 本文行にどのような文字が書いてあるか認識する

 このうち第2、第4、第5工程にAIを活用している。第4工程ではディープラーニング技術を活用して精緻なレイアウト解析を行った。テキスト領域とそれ以外の領域を判定するだけでなく、テキスト領域においても本文行の段組の判定や脚注、図版キャプションといった要素の判定、ルビの除外といった特徴をAIに学習させていった。現代にはない複雑なレイアウトの資料もあり、当初は開発を不安視する声もあったが緻密な調整のかいもあって、本文行を認識するAIの開発は順調に進んだ。

photo モルフォの野元彰氏(CTO室 リサーチャー)

 とはいえ、壁に突き当たったこともある。第3工程の傾き補正といったAI活用の前処理に時間がかかってしまい、開発要件の処理速度を満たせなかった。高解像度のスキャン画像をそのまま処理して認識精度を保とうとしていたことが原因だ。チーム内で検討を重ね、認識精度が下がらない程度に傾きを許容し、解像度を落とすことで処理速度が飛躍的に向上したとモルフォの野元彰氏(CTO室 リサーチャー)は説明する。

約1300万文字でAIを学習 データが少ない文字は開発チーム側で用意

 近代活字資料のスキャン画像の前処理を終えたら、いよいよ文字認識の工程に入る。NDLOCR用のAIを開発するため、約1万7000画像(約1300万文字)のデータセットで機械学習に取り組んだ。前例があまりないため手探り状態で進めたと野元氏は話す。

photo モルフォの小関大河氏(CTO室 リサーチャー)

 さらに機械学習用の文字データの扱いにも工夫があった。NDLOCRでテキストデータ化する対象は日本語のJIS(日本産業規格)の第1・第2水準に、出現率の高い文字種を加えた約7000文字だ(JIS第1・第2水準以外の旧字体などは新字体に置き換える)。ところが学習データの基になった資料内で登場頻度が低い文字は、データ不足のため正確に機械学習できない。そうした文字については、開発チームで生成したものを学習データに加えたとモルフォの小関大河氏(CTO室 リサーチャー)は説明する。

photo モルフォの平﨑靖博氏(プロダクト開発室 ソフトウェアエンジニア)

 また一般的なOCRでは、文脈を踏まえてテキストデータ化の品質を高める仕組みもある。しかし今回は文脈を考慮しても認識精度に影響しないと分かったため、文字そのものの認識に集中した。文字認識の単位についても、1文字ごとと1行ごとのどちらが最適かを徹底的に議論して開発要件を満たせるようにしたとモルフォの平﨑靖博氏(プロダクト開発室 ソフトウェアエンジニア)は明かした。

NDLOCRはオープンソースで公開 使ったエンジニアからは好評

photo モルフォAIソリューションズの栗原洸太氏(執行役員 技術管掌)

 さまざまな工夫を経て、NDLOCRは無事に完成した。認識精度や処理速度を含む全ての要件を達成し、開発チーム一同ほっとしているとプロジェクトで中心的な役割を担ったモルフォAIソリューションズの栗原洸太氏(執行役員 技術管掌)は笑顔を見せた。

photo 完成したNDLOCRの認識精度を評価したグラフ。青線が目標値を、赤線が結果を表す。資料の種類や年代を問わず高い認識精度を誇っている(出典:国立国会図書館のNDLラボ「令和3年度OCR処理プログラム研究開発」)

 このNDLOCRの開発概要は、国立国会図書館の実験的な研究成果を掲載するWebサイト「NDLラボ」上で公開されている。またソースコードは、GitHubの同館公式アカウントでオープンソースとして掲載されている。商用非商用問わず使える他、改変なども自由にできる。実際に使ったエンジニアや研究者らからは好評で、SNSを中心に国内外で反響が広がっている。

NDLOCRを活用した独自のAI-OCRを提供 デジタルアーカイブに注力

 モルフォAIソリューションズとしてもNDLOCRの活用を進めており、開発したOCR処理プログラムを使ったAI-OCRソフトウェア「FROG AI-OCR」を提供している。ユーザーの手元で書類をスキャンして画像をアップロードすることで、NDLOCRのテキスト化機能を使える。さらに、テキストの校正や出力機能も一つのパッケージとして利用できる。機能は全てクラウドで利用でき、別のPCや複数台のPCから出力結果を確認して修正作業を効率良く行える。FROG AI-OCRは、大学研究者や地方図書館での利用も始まっており、同社が事業主体として掲げるデジタルアーカイブ領域を代表する存在になった。

photo FROG AI-OCRでは、近代書籍のOCRや校正、テキスト出力ができる(画像はテキスト校正画面)

先端の画像AIの開発を進める――志を共有できるメンバーやパートナーを募集

 モルフォAIソリューションズが事業主体に据えているもう一つの領域がスマートシティーだ。画像解析システム「みまもりAI:Duranta」(デュランタ)を組み込んだ監視カメラを駅やショッピングモールといった町中に設置して、車いすなど介助が必要な人を自動で見つけてスタッフに通知したり、事故の未然防止に役立てたりできる。監視カメラの国内シェアでトップクラスのi-PRO(福岡県福岡市)のAIネットワークカメラの機能拡張ソフトウェアとしても利用可能だ。カメラ本体に内蔵したAIプロセッサにより、画像分析や画像解析をカメラ内部で実現できる。

photo みまもりAI:Durantaが提供する機能の例(出典:モルフォAIソリューションズのプレスリリース)
photo モルフォAIソリューションズの神田武氏(代表取締役社長 兼 CEO)

 「モルフォAIソリューションズでは先端の画像AI技術を用いたソリューションの開発と提供に取り組んでいます。創業から3年弱ではありますが、ありがたいことに多くのお客さまから信頼をいただいています。さらにパナソニックグループや凸版印刷といった大手企業との協業も進めています。こうした成長速度に合わせて、営業メンバーと開発メンバーともに、新たに迎えたいと考えています。志を共有できるメンバーやパートナーを募集中です」――モルフォAIソリューションズの神田武氏(代表取締役社長 兼 CEO)はこう訴える。

AI活用 ポイントは「きちんと問題設計をして要件を詰めること」

 モルフォAIソリューションズは、ビジネス課題をAIで解決する知見を持っている。そしてNDLOCRの開発で発揮した、処理速度と認識精度のバランスを追求できる技術力がある。またハードウェア/ソフトウェア向けのAIを両方手掛けており、マイクロコンピュータからスーパーコンピュータまで幅広く対応可能だ。ユーザー企業だけでなく、AI開発ベンダーからコンサルティングやAIモデルのチューニング依頼を引き受けるケースも多い。

 そんな高い技術力を持つモルフォAIソリューションズの栗原氏に、AI活用のポイントを聞いた。

 「きちんと問題設計をして、定義や要件を詰めないと開発現場と実用段階とでギャップが生まれて、結果的にAIの性能が落ちてしまいます。『全部やろう』というのではなく、関係者で協議していくことがAI活用を成功に導くポイントです」(栗原氏)

 AIのビジネス活用、特に画像解析分野で「AIで何をしたいか」が決まっているものの「どうすればいいか分からない」という人は、モルフォAIソリューションズやモルフォに相談してはいかがだろうか。確かな技術と経験を基に、課題に合った解決方法を提示してくれるだろう。

Copyright © ITmedia, Inc. All Rights Reserved.


提供:株式会社モルフォAIソリューションズ
アイティメディア営業企画/制作:ITmedia NEWS編集部/掲載内容有効期限:2022年11月1日