このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米スタンフォード大学と米Adobe Researchに所属する研究者らが発表した論文「PDFTriage: Question Answering over Long, Structured Documents」は、WebページやPDF論文、プレゼンテーション資料などの複雑な構造からなる特定のドキュメントに対するテキストプロントに適切に回答する、大規模言語モデル(LLM)向けの方法を提案した研究報告である。
現行の方法では、LLMが対応するコンテキスト数(トークン数)に制限があるため、長い文書から関連するコンテキストを取得する前処理が必要である。だが、多くの文書、例えばWebページやPDF論文、プレゼンテーション資料などは、複雑な構造を持っている。これら構造を持つ文書を単なる平文として扱うのは、ユーザーの期待と合致しない場合が多い。
例として、以下の2つの質問が挙げられる。1つ目は「ページ5-7を要約してください」という明示的な質問で、2つ目は「表3での最大の収益はどの年か?」という暗黙的な質問である。これらの質問に応じるためには、文書の構造情報が不可欠である。
この問題への対策として、「PDFTriage」という新たな手法を提案する。PDFTriageの利用により、特定のページやテーブルを中心とした、文書の構造を踏まえた質問への回答が可能となる。
この方法は、モデルに文書の構造に関するメタデータへのアクセスを持つことで、構造や内容に基づいてコンテキストを取得できる。
具体的には、まずドキュメントの構造化されたメタデータ表現を生成し、セクションのテキストや図のキャプション、ヘッダ、テーブルに関する情報を抽出する。次に、質問が与えられると、質問に答えるために必要なドキュメントのフレームを選択し、選択されたページやセクション、図、またはテーブルから直接それを取得する。最後に、選択された文脈と入力された質問はLLMが処理し、生成した答えを出力する。
このアプローチを評価するために、約900の質問と90の文書からなるデータセットを作成した。このデータセットには、「文書構造の質問」や「表の推論の質問」など、ユーザーが尋ねる可能性のある10の異なるカテゴリーの質問が含まれている。
評価実験の結果、PDFTriageは既存の方法よりも優れたパフォーマンスを示した。さまざまな長さや内容のドキュメントであっても効果的に回答できることが分かった。
Source and Image Credits: Jon Saad-Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt. PDFTriage: Question Answering over Long, Structured Documents.
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR