論文PDFを数式込みで全文読み取るモデル 米Metaが「Nougat」開発 スキャンした古書の画像もOK:Innovative Tech
米Meta AIに所属する研究者らは、論文を記録したPDF内のテキストや数式を正確に読み取るモデルを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米Meta AIに所属する研究者らが発表した論文「Nougat: Neural Optical Understanding for Academic Documents」は、論文を記録したPDF内のテキストや数式を正確に読み取るモデルを提案した研究報告である。研究論文を機械が読めるテキストに変換することで、知識全体がより探しやすく、多くの人々がアクセスできるようになる。モデルのコードなどは全て公開されている。
科学的な知識の大部分は、論文として書籍または学術誌に記録され、多くの場合、PDFとしてインターネット上に存在している。しかし、PDF形式では、情報を他の形式に抽出するのが困難である。特に、数学的な表現が頻繁に用いられる科学研究論文では、その困難は一層高まる。
OCR(光学式文字認識)という技術も存在し、画像内の個々の文字や単語を検出して分類するのに優れている。だが、文字同士の関係性を理解する能力には限界がある。OCRは一行ずつ文字を解読するため、数学の式における上付き文字や下付き文字といった、文字の位置関係を考慮できない。分数や指数、行列などの数学的記法では、文字の相対的な位置が重要なため大きな欠点となる。
この課題を解決するために、文書のページの画像を整った形のテキストに変えることができる変換器「Nougat」(Neural Optical Understanding for Academic Documents)を提案する。これは自然言語処理分野などでよく使われている深層学習モデル「Transformer」を基盤にしており、PDFを簡単なマークアップ言語に変換できる訓練済みのモデルとなる。
この方法は文書のページの画像だけに依存しているため、スキャンされた古い書籍や論文も使いやすいデジタル形式に変換できる。これによって、人間が読むことのできる文書と機械が読むことのできるテキストとの間のギャップが埋まり、多くの文書がより利用しやすく、アクセスしやすくなる。
Source and Image Credits: Blecher, L., Cucurull, G., Scialom, T., & Stojnic, R.(2023). Nougat: Neural Optical Understanding for Academic Documents. arXiv preprint arXiv:2308.13418.
関連記事
- 数学の未解決問題「アインシュタイン問題」を“完全解決”する新図形発見 「The hat」を改良
英国の数学者ら、カナダのウォータールー大学と米National Museum of Mathematicsに所属する研究者らは、繰り返しパターンを作らず、鏡像なしで、2次元の表面を無限に敷き詰めることができる単一の非周期タイルを発見した研究報告を発表した。 - “数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化
米Microsoftと中国科学院に所属する研究者らは、数学的推理能力を強化するモデルを提案した研究報告を発表した。 - “ABC予想証明”の欠陥発見に賞金1.4億円 ドワンゴ創業者の川上さんが設置
数学の未解決問題「ABC予想」を証明する理論の欠陥を指摘できれば賞金1.4億円──一般社団法人日本財団ドワンゴ学園準備会は、そんな取り組みを始めると発表した。 - AIの「学習」と「推論」って何が違うの? “ハコ”に例えてカンタン解説
AIの「学習」と「推論」は何が違うのか。この違いを押さえておくことで、AIに関する議論をする際にもポイントが分かりやすくなるはずだ。 - GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北──米国チームが検証
「GPT-4の精度は時間と共に変わっている」──そんな研究成果を米スタンフォード大学と米カリフォルニア大学バークレー校の研究チームが発表した。3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.