PDF論文やプレゼン資料から「表3を説明して」「5〜7ページを要約して」などの指示に回答 米Adobeなど「PDFTriage」開発:Innovative Tech
米スタンフォード大学と米Adobe Researchの研究者らは、WebページやPDF論文、プレゼンテーション資料などの複雑な構造からなる特定のドキュメントに対するテキストプロントに適切に回答する、大規模言語モデル向けの方法を提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米スタンフォード大学と米Adobe Researchに所属する研究者らが発表した論文「PDFTriage: Question Answering over Long, Structured Documents」は、WebページやPDF論文、プレゼンテーション資料などの複雑な構造からなる特定のドキュメントに対するテキストプロントに適切に回答する、大規模言語モデル(LLM)向けの方法を提案した研究報告である。
現行の方法では、LLMが対応するコンテキスト数(トークン数)に制限があるため、長い文書から関連するコンテキストを取得する前処理が必要である。だが、多くの文書、例えばWebページやPDF論文、プレゼンテーション資料などは、複雑な構造を持っている。これら構造を持つ文書を単なる平文として扱うのは、ユーザーの期待と合致しない場合が多い。
例として、以下の2つの質問が挙げられる。1つ目は「ページ5-7を要約してください」という明示的な質問で、2つ目は「表3での最大の収益はどの年か?」という暗黙的な質問である。これらの質問に応じるためには、文書の構造情報が不可欠である。
この問題への対策として、「PDFTriage」という新たな手法を提案する。PDFTriageの利用により、特定のページやテーブルを中心とした、文書の構造を踏まえた質問への回答が可能となる。
この方法は、モデルに文書の構造に関するメタデータへのアクセスを持つことで、構造や内容に基づいてコンテキストを取得できる。
具体的には、まずドキュメントの構造化されたメタデータ表現を生成し、セクションのテキストや図のキャプション、ヘッダ、テーブルに関する情報を抽出する。次に、質問が与えられると、質問に答えるために必要なドキュメントのフレームを選択し、選択されたページやセクション、図、またはテーブルから直接それを取得する。最後に、選択された文脈と入力された質問はLLMが処理し、生成した答えを出力する。
このアプローチを評価するために、約900の質問と90の文書からなるデータセットを作成した。このデータセットには、「文書構造の質問」や「表の推論の質問」など、ユーザーが尋ねる可能性のある10の異なるカテゴリーの質問が含まれている。
評価実験の結果、PDFTriageは既存の方法よりも優れたパフォーマンスを示した。さまざまな長さや内容のドキュメントであっても効果的に回答できることが分かった。
Source and Image Credits: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt. PDFTriage: Question Answering over Long, Structured Documents.
関連記事
- 論文PDFを数式込みで全文読み取るモデル 米Metaが「Nougat」開発 スキャンした古書の画像もOK
米Meta AIに所属する研究者らは、論文を記録したPDF内のテキストや数式を正確に読み取るモデルを提案した研究報告を発表した。 - ファイルをアップするだけで、内容を学習したチャットボットが5秒で完成 ChatGPT活用
PDFやWordファイルをアップロードするだけで、その内容を学習したAIチャットボットを5秒で生成する「ドキュメントチャットボット」をユーザーローカルが無料公開。 - 好みのチャットbotを短い文章で作れるツール「Prompt2Model」 米カーネギーメロン大などが開発
米カーネギーメロン大学や中国の清華大学に所属する研究者らは、短い文章(プロンプト)だけから、自然言語処理(NLP)モデルを自動で作り出すフレームワークを提案した研究報告を発表した。 - コード専用生成AI「WizardCoder」、米Microsoftが公開 ベースはCode Llama、高い精度を達成
米Microsoftなどに所属する研究者らは、米Metaが最近リリースしたCode LLM(コーディング専用大規模言語モデル)「Code Llama」をベースにしたコード専用生成AI「WizardCoder」を発表した。 - “数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化
米Microsoftと中国科学院に所属する研究者らは、数学的推理能力を強化するモデルを提案した研究報告を発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.