独特な「請求書」「領収書」などの文書を理解する言語モデル「DocLLM」 JPモルガンが開発:Innovative Tech
米JPMorgan AI Researchに所属する研究者らは、複雑なレイアウトを持つ文書(請求書、領収書、契約書、注文書、フォームなど)の自動解析を行う大規模言語モデル(LLM)を提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米JPMorgan AI Researchに所属する研究者らが発表した論文「DocLLM: A layout-aware generative language model for multimodal document understanding」は、複雑なレイアウトを持つ文書(請求書、領収書、契約書、注文書、フォームなど)の自動解析を行う大規模言語モデル(LLM)を提案した研究報告である。
これらの文書は複雑なレイアウト、テンプレート、フォーマットなどにおいて多様性を示している。文書AI(DocAI)は、情報抽出、分類、質問応答など多岐にわたるタスクで大きな進歩を遂げているが、実世界のアプリケーションにおいては性能のギャップが残っている。特に、精度や信頼性、文脈理解、未知の領域への一般化は依然として課題である。
この研究では、空間レイアウトとテキストの理解の両方をモデル化したマルチモーダルモデル「DocLLM」という新しい強力なアプローチを提案する。DocLLMは、従来の大規模言語モデル(LLM)を基礎としており、文書解析に特化したデータセットで微調整している。
DocLLMの特徴は、空間レイアウト情報をモデル化する際に、光学文字認識(OCR)で得られるテキストトークンの境界ボックス情報のみを利用し、視覚エンコーダーコンポーネントを使用していないことである。これにより、モデルのサイズはわずかに増加するものの、処理時間を短縮できる。
また、不規則なレイアウトや特殊な内容を持つ文書に対応するため、テキストセグメントを埋める学習目標を採用している。この学習方法では、文書内の特定のテキストセグメントを意図的に隠し(マスク)、その隠された部分をモデルが予測することを目指している。これにより、モデルは文書の全体的な文脈を理解し、不完全な情報から意味を推測する能力を向上させている。
評価実験の結果、DocLLMはフォーム理解、テーブル整列、視覚的質問応答などの文書解析タスクにおいて優れたパフォーマンスを示した。特に、空間レイアウトとテキストの統合により文書の構造と内容の理解が向上している。未知のデータセットにおいてもパフォーマンスの向上が見られ、Llama2-7Bモデルと比較して15%から61%の改善を確認した。
Source and Image Credits: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu. DocLLM: A layout-aware generative language model for multimodal document understanding.
関連記事
- ELYZA、新たな日本語言語モデルを一般公開 同社「日本語ならGPT-3.5を上回る性能」 商用利用も可
東大発のAIスタートアップ企業であるELYZAは、商用利用可能な日本語の大規模言語モデル(LLM)「ELYZA-japanese-Llama-2-13b」を公開した。日本語性能の評価では「GPT-3.5(text-davinci-003)」を上回るという。 - NECの大規模言語モデルが一般初公開 現地の様子は
NECの自社製大規模言語モデル(LLM)が、テクノロジー展示会「CEATEC 2023」(10月17〜20日、幕張メッセ)で初の一般公開となった。会場から2時間程度たった正午ごろには、ブースに十数人程度の人だかりができる様子も。 - 日本にも“社内GPT”の導入相次ぐ 日本マイクロソフトが語る最新動向
「日本でAzure OpenAI Serviceを活用している企業数は560社以上」──日本マイクロソフトが10月23日に開催した、AIに関するメディア向け説明会にてそのように明かした。 - 「みずほGPT」誕生か? みずほFG、Azureの生成AIサービスを活用検討へ
みずほフィナンシャルグループが、日本マイクロソフトの「Azure OpenAI Service」の活用の検討を開始する。ChatGPTなどの大規模言語モデルをクラウド上で利用できるサービスを使い、業務効率化に取り組む。 - 米Bloomberg、金融特化の大規模言語モデル「BloombergGPT」発表 「Appleの時価総額を教えて」などに回答
米Bloombergと米ジョンズ・ホプキンズ大学に所属する研究者らは、幅広い金融データで学習させた500億パラメータの大規模言語モデル(LLM)を提案した研究発表を発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.