ICLRの論文データに対するLLMのフィードバックと人間のフィードバックとの間のコメントの重複を調査した。結果は、Nature系列のジャーナルのものと大体似ていたが重複率はやや高い数値を示した。GPT-4が指摘したコメントのうち77.18％は、少なくとも1人の人間の査読者によっても指摘されていた。

　さらに、ICLRのデータセットには受理された論文と拒否された論文の両方が含まれているため、層別解析を行った。ICLRの論文での受理基準が厳しいものほど、フィードバックの重複が大きかった。

　具体的には、口頭発表で受理された論文（受理された論文の上位5％）において、LLMのフィードバックと人間のフィードバックのコメントとの間の平均重複率は30.63％であった。スポットライト発表で受理された論文（受理された論文の上位25％）では、平均重複率は32.12％に増加し、拒否された論文は最も高い平均重複率、47.09％を示した。

　これは、拒否された論文には、人間の査読者とLLMの両方が一貫して特定できる明確な問題点や欠陥が多いことを示唆している。さらに、拒否された論文におけるLLMのフィードバックと実際の人間の査読者のフィードバックとの間の増加した重複は、大きな修正が必要な論文において、LLMのフィードバックが特に有益であることを示している。

　実際、これらの問題点を査読の段階より前に早期に取り上げることで、これらの論文やその研究内容が向上する可能性があると考えられる。

研究者の8割「人間の以上にフィードバック得られた」

　次に、LLMによる査読に関して、ユーザー調査とアンケート調査を実施した。学術機関のメーリングリストを利用したり、論文投稿サイト「arXiv」にプレプリントを投稿した著者たちにアンケートを送ったりして、米国内の110の機関から308人の研究者の意見を収集した。

　具体的には、自ら執筆した論文に対するLLMからのフィードバックを評価するアンケートを実施した。研究者は、LLMのフィードバックが自らの予想するフィードバックや以前に受け取った人間からのフィードバックとどれほど一致するかを評価した。

　ユーザー調査の結果、70％以上の研究者が、LLMのフィードバックが自らの予想や論文の主要な点に関する意見と少なくとも部分的に一致していると感じた。35％は、その一致度がかなり高いと感じた。

ユーザー調査の結果

　人間のフィードバックとの比較において、17.5％の参加者は、人間のフィードバックよりも劣ると考えた。残り82.5％の参加者は、人間のフィードバックよりも有益、もしくは同等だと感じた（一部だけ有益も含まれる）。

　研究者らは、質の高い人間によるフィードバックは依然として必要であると主張している。またLLMは、著者が正式な査読を受ける前の初期の草稿を改善するのに役立つだろうとも述べている。多くの参加者も、著者がタイムリーに論文のコメントを受け取るための迅速なフィードバックツールの提供を期待していると分かった。

　リポジトリはこちら。

デモの画面、論文PDFを入力すると、120秒ほどでフィードバックを生成

Source and Image Credits: Weixin Liang, Yuhui Zhang, Hancheng Cao, Binglu Wang, Daisy Ding, Xinyu Yang, Kailas Vodrahalli, Siyu He, Daniel Smith, Yian Yin, Daniel McFarland, James Zou. Can large language models provide useful feedback on research papers？ A large-scale empirical analysis.

ChatGPT、“目”と“耳”の実装を発表　写真の内容を認識、発話機能でおしゃべりも可能に
米OpenAIのチャットAI「ChatGPT」に、画像認識、音声認識、発話機能が搭載された。今後2週間かけて、PlusユーザーとEnterpriseユーザーに展開するという。
GPT-4を上回るオープンなLLM誕生？　中国研究者らが「Xwin-LM」公開
米OpenAIの生成AI「GPT-4」を上回る性能をうたうAI「Xwin-LM」が、AIモデル共有サイト「Hugging Face」に公開されている。言語モデルのベンチマークサイト「AlpacaEval」でGPT-4を追い抜き1位を獲得したとしている。
OpenAI、GPT-4の活用で人間のコンテンツモデレータの負担軽減が可能と主張
OpenAIは、コンテンツモデレーションにGPT-4のようなLLM（大規模言語モデル）を活用できるとし、そのプロセスをブログで紹介した。これにより、人間のモデレータの負担を軽減できるとしている。
米Microsoftら、“コーディング専用”大規模言語モデル「WizardCoder」開発　文章から高品質なコード出力
米Microsoftや香港浸会大学に所属する研究者らは、米Hugging Faceが5月に発表したCode LLM（コーディング専用大規模言語モデル）「StarCoder」を軽量で高精度に強化する手法を提案した研究報告を発表した。
GPT-4の精度は悪化している？　3月に解けた数学の問題解けず　GPT-3.5にも敗北──米国チームが検証
「GPT-4の精度は時間と共に変わっている」──そんな研究成果を米スタンフォード大学と米カリフォルニア大学バークレー校の研究チームが発表した。3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。