ITmedia NEWS > 科学・テクノロジー >

論文PDFを数式込みで全文読み取るモデル 米Metaが「Nougat」開発 スキャンした古書の画像もOKInnovative Tech

» 2023年09月07日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Meta AIに所属する研究者らが発表した論文「Nougat: Neural Optical Understanding for Academic Documents」は、論文を記録したPDF内のテキストや数式を正確に読み取るモデルを提案した研究報告である。研究論文を機械が読めるテキストに変換することで、知識全体がより探しやすく、多くの人々がアクセスできるようになる。モデルのコードなどは全て公開されている。

(左)書籍をスキャンしたオリジナルの論文、(右)Nougatが変換した内容
(左)PDF化したテキストと数式が含まれる論文、(右)Nougatを用いて変換した内容

 科学的な知識の大部分は、論文として書籍または学術誌に記録され、多くの場合、PDFとしてインターネット上に存在している。しかし、PDF形式では、情報を他の形式に抽出するのが困難である。特に、数学的な表現が頻繁に用いられる科学研究論文では、その困難は一層高まる。

 OCR(光学式文字認識)という技術も存在し、画像内の個々の文字や単語を検出して分類するのに優れている。だが、文字同士の関係性を理解する能力には限界がある。OCRは一行ずつ文字を解読するため、数学の式における上付き文字や下付き文字といった、文字の位置関係を考慮できない。分数や指数、行列などの数学的記法では、文字の相対的な位置が重要なため大きな欠点となる。

 この課題を解決するために、文書のページの画像を整った形のテキストに変えることができる変換器「Nougat」(Neural Optical Understanding for Academic Documents)を提案する。これは自然言語処理分野などでよく使われている深層学習モデル「Transformer」を基盤にしており、PDFを簡単なマークアップ言語に変換できる訓練済みのモデルとなる。

Nougatのアーキテクチャ

 この方法は文書のページの画像だけに依存しているため、スキャンされた古い書籍や論文も使いやすいデジタル形式に変換できる。これによって、人間が読むことのできる文書と機械が読むことのできるテキストとの間のギャップが埋まり、多くの文書がより利用しやすく、アクセスしやすくなる。

Source and Image Credits: Blecher, L., Cucurull, G., Scialom, T., & Stojnic, R.(2023). Nougat: Neural Optical Understanding for Academic Documents. arXiv preprint arXiv:2308.13418.



Copyright © ITmedia, Inc. All Rights Reserved.