このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米Microsoftと中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル(LLM)である「Llama-2」に対して適用することで実現する。
米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのLLMとの差を急速に縮めている。しかし、これらオープンソースモデルは、数学や科学の問題解決など、複雑な多段階の推論が求められる場面での課題を抱えている。
研究では、この問題点に着目し、Llama-2という最先端のオープンソースLLMの数学的推論能力を向上させる手法「WizardMath」を提案する。具体的には、「Reinforcement Learning from Evol-Instruct Feedback」(RLEIF)という新しい方法で微調整を行う。
この手法では、Evol-Instructを使用して多様な数学指示データを生成し、Training Instruction Reward Model(IRM)、Process-supervised Reward Model (PRM)を訓練している。
WizardMathは、GSM8kとMATHという2つの数学的推論ベンチマークで実験を行った結果、全てのオープンソースLLMを大きく上回る性能を発揮した。具体的には、GSM8kにおいては+24.8、MATHにおいては+9.2の向上を示した。特筆すべきは、WizardMathはOpenAIのChatGPT-3.5、AnthropicのClaude Instant-1、GoogleのPaLM-2などのモデルもGSM8kで大きく上回っていることである。
WizardMathの詳細やモデルの重みは、GitHubおよびHugging Faceで公開されている。
Source and Image Credits: Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Dongmei Zhang. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct.
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR