LLMが別のLLMを何度も改善　より良い回答を出す最適化手法をAIが発見する技術　Sakana AIなどが開発

公開 2024年06月17日 12時00分

著者

山下裕毅

[ITmedia]

印刷する連載新着通知を受け取る

Innovative Tech（AI+）：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X：＠shiropen2

　AIベンチャーのSakana AI（東京都港区）やFLAIR、英ケンブリッジ大学、オックスフォード大学に所属する研究者らが発表した論文「Discovering Preference Optimization Algorithms with and for Large Language Models」は、人間の介入を最小限に抑えて新しい最適化アルゴリズムをAIによって発見する手法を提案した研究報告である。

　この手法では大規模言語モデル（LLM）がLLMを利用して自己改善し進化していくことを提案しており、研究者らは「LLM^2」（「LLMの2乗」）と表現している。

LLMがLLMを用いて自己改善する方法を研究

　LLMには、生成するテキストに偏見や差別的表現、有害な内容が含まれることがあり、出力の品質や安全性の面で課題がある。これを解決するために、人間の選好に基づいてLLMの出力を最適化する「選好最適化」（Preference optimization）という手法が注目されている。

　選好最適化の一般的なアプローチは、人間が手動で設計した損失関数を用いて、LLMをファインチューニングすることである。損失関数は、モデルの出力と理想的な出力との乖離（かいり）を数値化したもので、これを最小化するようにモデルのパラメータを更新する。しかし、最適な損失関数の設計は容易ではない。なぜなら、考えられる損失関数の組み合わせは膨大で、人間の創造性では限界があるからである。

　この研究では、この問題に対処するために、LLMを活用して自動的に高性能な損失関数を発見する方法を提案した。提案手法では、LLM（ここではGPT-4を使用）に対して反復的にプロンプトを与え、新しい損失関数を生成させる。

LLMを用いて新しい損失関数を発見するプロセス

　プロンプトには、これまでに評価された損失関数の情報やその性能指標が含まれる。生成した損失関数は、実際にLLMの学習に適用され、その性能を評価。この評価結果がフィードバックとしてLLMに与えられ、LLMは徐々により良い損失関数を生成するようになる。このプロセスにより、これまで未知であったが高性能な選好最適化アルゴリズムを発見できる。

　この自動発見プロセスを約100回試したところ、研究では「DiscoPOP」と名付けられた新しい選好最適化アルゴリズムを発見した。DiscoPOPの特徴は、ロジスティック損失と指数損失という2つの損失関数を適応的に組み合わせているところだ。

MT-Bench評価スコア

　DiscoPOPは、MT-Benchと呼ばれる多様な対話タスクからなるベンチマークにおいて、既存の手法を上回る性能を示した。さらに、要約や感情制御など、未知のタスクに対しても優れた性能を発揮した。

　研究チームは、DiscoPOPなどをオープンソース化（GitHubリポジトリ）している。

Source and Image Credits: Chris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, Robert Tjarko Lange. Discovering Preference Optimization Algorithms with and for Large Language Models

この連載新着通知をメールで受け取る

印刷する

SpecialPR

Innovative Tech（AI+）

2019年の開始以来、多様な最新論文を取り上げている連載「Innovative Tech」。ここではその“AI編”として、人工知能に特化し、世界中の興味深い論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」（シームレス）を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。

連載新着通知を受け取る

この連載の記事をもっと見る