ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

独特な「請求書」「領収書」などの文書を理解する言語モデル「DocLLM」 JPモルガンが開発Innovative Tech

» 2024年01月12日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米JPMorgan AI Researchに所属する研究者らが発表した論文「DocLLM: A layout-aware generative language model for multimodal document understanding」は、複雑なレイアウトを持つ文書(請求書、領収書、契約書、注文書、フォームなど)の自動解析を行う大規模言語モデル(LLM)を提案した研究報告である。

DocLLMが文書理解を行う際のプロセス

 これらの文書は複雑なレイアウト、テンプレート、フォーマットなどにおいて多様性を示している。文書AI(DocAI)は、情報抽出、分類、質問応答など多岐にわたるタスクで大きな進歩を遂げているが、実世界のアプリケーションにおいては性能のギャップが残っている。特に、精度や信頼性、文脈理解、未知の領域への一般化は依然として課題である。

 この研究では、空間レイアウトとテキストの理解の両方をモデル化したマルチモーダルモデル「DocLLM」という新しい強力なアプローチを提案する。DocLLMは、従来の大規模言語モデル(LLM)を基礎としており、文書解析に特化したデータセットで微調整している。

 DocLLMの特徴は、空間レイアウト情報をモデル化する際に、光学文字認識(OCR)で得られるテキストトークンの境界ボックス情報のみを利用し、視覚エンコーダーコンポーネントを使用していないことである。これにより、モデルのサイズはわずかに増加するものの、処理時間を短縮できる。

 また、不規則なレイアウトや特殊な内容を持つ文書に対応するため、テキストセグメントを埋める学習目標を採用している。この学習方法では、文書内の特定のテキストセグメントを意図的に隠し(マスク)、その隠された部分をモデルが予測することを目指している。これにより、モデルは文書の全体的な文脈を理解し、不完全な情報から意味を推測する能力を向上させている。

DocLLMモデルのアーキテクチャ

 評価実験の結果、DocLLMはフォーム理解、テーブル整列、視覚的質問応答などの文書解析タスクにおいて優れたパフォーマンスを示した。特に、空間レイアウトとテキストの統合により文書の構造と内容の理解が向上している。未知のデータセットにおいてもパフォーマンスの向上が見られ、Llama2-7Bモデルと比較して15%から61%の改善を確認した。

Source and Image Credits: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu. DocLLM: A layout-aware generative language model for multimodal document understanding.



Copyright © ITmedia, Inc. All Rights Reserved.