このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
中国の上海交通大学やMeta AIなどに所属する研究者らが発表した論文「FacTool: Factuality Detection in Generative AI ? A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios」は、ChatGPTなどの大規模言語モデル(LLM)が生成したテキストの事実誤認を検出するためのフレームワークを提案した研究報告である。「知識ベースのQ」「コード生成」「数学の問題解決」「科学文献のレビュー執筆」の4つのタスクをサポートしている。
自動生成コンテンツは、一見信頼できるように見えるが、LLMの能力が限られているため、しばしば不正確であったり、真実から逸脱していたりすることがある。生成コンテンツの有用性と信頼性を向上させるには、こうした誤りを体系的に特定することが極めて重要である。
この研究では、LLMで生成したテキスト中の事実誤認を検出することを目的とした、タスクとドメインにとらわれないフレームワーク「FacTool」を提案する。
FacToolは、真実ではないかもしれない要素の抽出やクエリ生成、ツールクエリ、証拠収集、合意検証の5つの主要コンポーネントから構成される。まず生成コンテンツに対して、真実ではないかもしれない要素を複数抽出する。次に、各要素をクエリのリストに変換する。これらのクエリから、Google検索、Google Scholar、Code Interpreterなどに投げて、関連する証拠文を収集する。そして最後に、収集した証拠を用いて、各要素の事実性を評価する。
研究者らはベンチマークを開発し、知識ベースのQA、コード生成、数学の問題解決、科学論文のレビュー執筆の4つのタスクで実験を行った。その結果、GPT-4はChatGPT、Bard、Claude-v1、Vicunaと比較して、事実精度が最も優れていた。Vicuna-13Bは、知識ベースのQAではそれなりに良好な事実性を示したが、コード生成、数学の問題解決、科学論文のレビュー執筆など、より困難なシナリオではパフォーマンスが低い結果となった。
Source and Image Credits: Chern, I., Chern, S., Chen, S., Yuan, W., Feng, K., Zhou, C., … & Liu, P(2023). FacTool: Factuality Detection in Generative AI-A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios. arXiv preprint arXiv:2307.13528.Chern, I., Chern, S., Chen, S., Yuan, W., Feng, K., Zhou, C., … & Liu, P.(2023). FacTool: Factuality Detection in Generative AI-A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios. arXiv preprint arXiv:2307.13528.
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR