このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
米カーネギーメロン大学、Allen Institute for Artificial Intelligence、米ワシントン大学、米NVIDIA、米UC San Diego、米Google Researchに所属する研究者らが発表した論文「Self-Refine: Iterative Refinement with Self-Feedback」は、大規模言語モデル(LLM)が、より高品質な出力を生成するために、反復的な改良と自己評価を利用することを可能にする新しいフレームワークを提案した研究報告である。
人間の問題解決の基本的な特徴である反復的な改良は、最初に草案を作成し、その後自己フィードバックによって改良するプロセスである。例えば、メールの文章でも何度も校正を行い、推敲することで仕上げる。
この研究では、LLMが反復的なフィードバックと改良を行うフレームワーク「Self-Refine」を提案することで、このような人間の認知プロセスを効果的に再現できるかを検証する。このアプローチは、先行研究とは異なり、教師ありの訓練データや強化学習を必要とせず、単一のLLMを使用する。
Self-Refineは、FeedbackとRefineの2つのコンポーネントによる反復ループで構成し、これらのコンポーネントが連携して高品質なアウトプットを生成する。モデルが生成した最初の出力案があると、それをFeedbackとRefineの2つのコンポーネントを何度も行き来し、何度も繰り返し改良する。このプロセスは、指定された回数、あるいはモデル自身がこれ以上の改良は必要ないと判断するまで、繰り返し行われる。
具体的には、初期出力を与えると、Feedbackはそれを評価し、修正に必要な実行可能なフィードバックを生成する。Refineは、そのフィードバックを考慮してアウトプットを改良する。これらを繰り返す。
実験では、物語生成やコードの最適化、略語生成など7つのタスクで大規模なテストを行った。結果、Self-RefineがGPT-3.5やGPT-4などの強力な生成器からの直接生成よりも少なくとも5%、最大で40%以上向上することを示した。
Source and Image Credits: Madaan, A., Tandon, N., Gupta, P., Hallinan, S., Gao, L., Wiegreffe, S., … & Clark, P.(2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv preprint arXiv:2303.17651.
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR