生成AIの文章やコード、論文が“事実か”チェックする技術　米Meta含む研究者らが開発：Innovative Tech

» 2023年08月09日 13時28分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　中国の上海交通大学やMeta AIなどに所属する研究者らが発表した論文「FacTool: Factuality Detection in Generative AI ? A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios」は、ChatGPTなどの大規模言語モデル（LLM）が生成したテキストの事実誤認を検出するためのフレームワークを提案した研究報告である。「知識ベースのQ」「コード生成」「数学の問題解決」「科学文献のレビュー執筆」の4つのタスクをサポートしている。

「知識ベースのQA」「コード生成」「数学の問題解決」「科学文献のレビュー執筆」の4つの領域における事実性検出のための提案するフレームワーク

　自動生成コンテンツは、一見信頼できるように見えるが、LLMの能力が限られているため、しばしば不正確であったり、真実から逸脱していたりすることがある。生成コンテンツの有用性と信頼性を向上させるには、こうした誤りを体系的に特定することが極めて重要である。

　この研究では、LLMで生成したテキスト中の事実誤認を検出することを目的とした、タスクとドメインにとらわれないフレームワーク「FacTool」を提案する。

　FacToolは、真実ではないかもしれない要素の抽出やクエリ生成、ツールクエリ、証拠収集、合意検証の5つの主要コンポーネントから構成される。まず生成コンテンツに対して、真実ではないかもしれない要素を複数抽出する。次に、各要素をクエリのリストに変換する。これらのクエリから、Google検索、Google Scholar、Code Interpreterなどに投げて、関連する証拠文を収集する。そして最後に、収集した証拠を用いて、各要素の事実性を評価する。

事実性検出のためのフレームワーク

　研究者らはベンチマークを開発し、知識ベースのQA、コード生成、数学の問題解決、科学論文のレビュー執筆の4つのタスクで実験を行った。その結果、GPT-4はChatGPT、Bard、Claude-v1、Vicunaと比較して、事実精度が最も優れていた。Vicuna-13Bは、知識ベースのQAではそれなりに良好な事実性を示したが、コード生成、数学の問題解決、科学論文のレビュー執筆など、より困難なシナリオではパフォーマンスが低い結果となった。

Source and Image Credits: Chern, I., Chern, S., Chen, S., Yuan, W., Feng, K., Zhou, C., … & Liu, P（2023）. FacTool: Factuality Detection in Generative AI-A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios. arXiv preprint arXiv:2307.13528.Chern, I., Chern, S., Chen, S., Yuan, W., Feng, K., Zhou, C., … & Liu, P.（2023）. FacTool: Factuality Detection in Generative AI-A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios. arXiv preprint arXiv:2307.13528.

“ChatGPT生成文”検知ソフト、2023年内に発売へ　大学生のレポートのコピペ抑止
ソフトウェア開発のアンクは、チャットAI「ChatGPT」で作成した文章を判別するソフト「コピペルナーV6」（仮称）を発売すると発表した。発売日は2023年内の予定。
今の技術ではChatGPTが書いた文章だと見抜けない？　さまざまなツールで検証、成功率は50％以下に
ドイツのダルムシュタット工科大学に所属する研究者らは、ChatGPTで生成した応答と人間が作った応答を区別することを目的としたさまざまなツールの有効性を評価し、その精度と信頼性を比較した研究報告を発表した。
「ChatGPT vs. Google」どっちで検索する？　95人を対象に米研究者らが違いを調査
米マイアミ大学に所属する研究者らは、情報探索タスクに検索エンジン（Google）とAIチャットツール（ChatGPT）を使用する際のユーザーにおける行動や考え方の違いを調査した研究報告を発表した。
25人のAIが一緒に暮らしたら、自我は芽生えるか？　ゲームの中で検証　バレンタインなど勝手に企画
米スタンフォード大学とGoogle Researchに所属する研究者らは、ChatGPTなどで制御したキャラクター25人が1つの町で一緒に生活したらどうなるかを検証した研究報告を発表した。
ChatGPTに詐欺メールの相手をさせたら？　最大18回のやりとりを記録　詐欺師の時間の浪費に成功
イタリアのNational Research Council of Italyに所属する研究者らは、詐欺師が送る詐欺メールとのやりとりをChatGPTにしてもらったらどうなるかを検証した研究報告を発表した。