ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

生成AIの文章やコード、論文が“事実か”チェックする技術 米Meta含む研究者らが開発Innovative Tech

» 2023年08月09日 13時28分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 中国の上海交通大学やMeta AIなどに所属する研究者らが発表した論文「FacTool: Factuality Detection in Generative AI ? A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios」は、ChatGPTなどの大規模言語モデル(LLM)が生成したテキストの事実誤認を検出するためのフレームワークを提案した研究報告である。「知識ベースのQ」「コード生成」「数学の問題解決」「科学文献のレビュー執筆」の4つのタスクをサポートしている。

「知識ベースのQA」「コード生成」「数学の問題解決」「科学文献のレビュー執筆」の4つの領域における事実性検出のための提案するフレームワーク

 自動生成コンテンツは、一見信頼できるように見えるが、LLMの能力が限られているため、しばしば不正確であったり、真実から逸脱していたりすることがある。生成コンテンツの有用性と信頼性を向上させるには、こうした誤りを体系的に特定することが極めて重要である。

 この研究では、LLMで生成したテキスト中の事実誤認を検出することを目的とした、タスクとドメインにとらわれないフレームワーク「FacTool」を提案する。

 FacToolは、真実ではないかもしれない要素の抽出やクエリ生成、ツールクエリ、証拠収集、合意検証の5つの主要コンポーネントから構成される。まず生成コンテンツに対して、真実ではないかもしれない要素を複数抽出する。次に、各要素をクエリのリストに変換する。これらのクエリから、Google検索、Google Scholar、Code Interpreterなどに投げて、関連する証拠文を収集する。そして最後に、収集した証拠を用いて、各要素の事実性を評価する。

事実性検出のためのフレームワーク

 研究者らはベンチマークを開発し、知識ベースのQA、コード生成、数学の問題解決、科学論文のレビュー執筆の4つのタスクで実験を行った。その結果、GPT-4はChatGPT、Bard、Claude-v1、Vicunaと比較して、事実精度が最も優れていた。Vicuna-13Bは、知識ベースのQAではそれなりに良好な事実性を示したが、コード生成、数学の問題解決、科学論文のレビュー執筆など、より困難なシナリオではパフォーマンスが低い結果となった。

Source and Image Credits: Chern, I., Chern, S., Chen, S., Yuan, W., Feng, K., Zhou, C., … & Liu, P(2023). FacTool: Factuality Detection in Generative AI-A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios. arXiv preprint arXiv:2307.13528.Chern, I., Chern, S., Chen, S., Yuan, W., Feng, K., Zhou, C., … & Liu, P.(2023). FacTool: Factuality Detection in Generative AI-A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios. arXiv preprint arXiv:2307.13528.



Copyright © ITmedia, Inc. All Rights Reserved.