このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米Microsoftと中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル(LLM)である「Llama-2」に対して適用することで実現する。
米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのLLMとの差を急速に縮めている。しかし、これらオープンソースモデルは、数学や科学の問題解決など、複雑な多段階の推論が求められる場面での課題を抱えている。
研究では、この問題点に着目し、Llama-2という最先端のオープンソースLLMの数学的推論能力を向上させる手法「WizardMath」を提案する。具体的には、「Reinforcement Learning from Evol-Instruct Feedback」(RLEIF)という新しい方法で微調整を行う。
この手法では、Evol-Instructを使用して多様な数学指示データを生成し、Training Instruction Reward Model(IRM)、Process-supervised Reward Model (PRM)を訓練している。
WizardMathは、GSM8kとMATHという2つの数学的推論ベンチマークで実験を行った結果、全てのオープンソースLLMを大きく上回る性能を発揮した。具体的には、GSM8kにおいては+24.8、MATHにおいては+9.2の向上を示した。特筆すべきは、WizardMathはOpenAIのChatGPT-3.5、AnthropicのClaude Instant-1、GoogleのPaLM-2などのモデルもGSM8kで大きく上回っていることである。
WizardMathの詳細やモデルの重みは、GitHubおよびHugging Faceで公開されている。
Source and Image Credits: Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Dongmei Zhang. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct.
米Microsoftら、“コーディング専用”大規模言語モデル「WizardCoder」開発 文章から高品質なコード出力
数学の未解決問題「アインシュタイン問題」を“完全解決”する新図形発見 「The hat」を改良
GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北──米国チームが検証
“ABC予想証明”の欠陥発見に賞金1.4億円 ドワンゴ創業者の川上さんが設置
東大松尾研、日英対応の大規模言語モデル公開 100億パラメータ、精度は「国内オープンソース最高水準」Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR