ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

「GPT-4」は論文の査読ができるか? 米スタンフォード大らが検証 参加者の80%以上「AI査読は有益」Innovative Tech(2/2 ページ)

» 2023年10月20日 08時00分 公開
[山下裕毅ITmedia]
前のページへ 1|2       

AIは欠陥指摘が得意?

 ICLRの論文データに対するLLMのフィードバックと人間のフィードバックとの間のコメントの重複を調査した。結果は、Nature系列のジャーナルのものと大体似ていたが重複率はやや高い数値を示した。GPT-4が指摘したコメントのうち77.18%は、少なくとも1人の人間の査読者によっても指摘されていた。

 さらに、ICLRのデータセットには受理された論文と拒否された論文の両方が含まれているため、層別解析を行った。ICLRの論文での受理基準が厳しいものほど、フィードバックの重複が大きかった。

 具体的には、口頭発表で受理された論文(受理された論文の上位5%)において、LLMのフィードバックと人間のフィードバックのコメントとの間の平均重複率は30.63%であった。スポットライト発表で受理された論文(受理された論文の上位25%)では、平均重複率は32.12%に増加し、拒否された論文は最も高い平均重複率、47.09%を示した。

 これは、拒否された論文には、人間の査読者とLLMの両方が一貫して特定できる明確な問題点や欠陥が多いことを示唆している。さらに、拒否された論文におけるLLMのフィードバックと実際の人間の査読者のフィードバックとの間の増加した重複は、大きな修正が必要な論文において、LLMのフィードバックが特に有益であることを示している。

 実際、これらの問題点を査読の段階より前に早期に取り上げることで、これらの論文やその研究内容が向上する可能性があると考えられる。

研究者の8割「人間の以上にフィードバック得られた」

 次に、LLMによる査読に関して、ユーザー調査とアンケート調査を実施した。学術機関のメーリングリストを利用したり、論文投稿サイト「arXiv」にプレプリントを投稿した著者たちにアンケートを送ったりして、米国内の110の機関から308人の研究者の意見を収集した。

 具体的には、自ら執筆した論文に対するLLMからのフィードバックを評価するアンケートを実施した。研究者は、LLMのフィードバックが自らの予想するフィードバックや以前に受け取った人間からのフィードバックとどれほど一致するかを評価した。

 ユーザー調査の結果、70%以上の研究者が、LLMのフィードバックが自らの予想や論文の主要な点に関する意見と少なくとも部分的に一致していると感じた。35%は、その一致度がかなり高いと感じた。

ユーザー調査の結果

 人間のフィードバックとの比較において、17.5%の参加者は、人間のフィードバックよりも劣ると考えた。残り82.5%の参加者は、人間のフィードバックよりも有益、もしくは同等だと感じた(一部だけ有益も含まれる)。

 研究者らは、質の高い人間によるフィードバックは依然として必要であると主張している。またLLMは、著者が正式な査読を受ける前の初期の草稿を改善するのに役立つだろうとも述べている。多くの参加者も、著者がタイムリーに論文のコメントを受け取るための迅速なフィードバックツールの提供を期待していると分かった。

 リポジトリはこちら

デモの画面、論文PDFを入力すると、120秒ほどでフィードバックを生成

Source and Image Credits: Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou. Can large language models provide useful feedback on research papers? A large-scale empirical analysis.



前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.