ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

“数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化Innovative Tech

» 2023年08月25日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Microsoftと中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル(LLM)である「Llama-2」に対して適用することで実現する。

 米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのLLMとの差を急速に縮めている。しかし、これらオープンソースモデルは、数学や科学の問題解決など、複雑な多段階の推論が求められる場面での課題を抱えている。

 研究では、この問題点に着目し、Llama-2という最先端のオープンソースLLMの数学的推論能力を向上させる手法「WizardMath」を提案する。具体的には、「Reinforcement Learning from Evol-Instruct Feedback」(RLEIF)という新しい方法で微調整を行う。

 この手法では、Evol-Instructを使用して多様な数学指示データを生成し、Training Instruction Reward Model(IRM)、Process-supervised Reward Model (PRM)を訓練している。

RLEIFの概要

 WizardMathは、GSM8kとMATHという2つの数学的推論ベンチマークで実験を行った結果、全てのオープンソースLLMを大きく上回る性能を発揮した。具体的には、GSM8kにおいては+24.8、MATHにおいては+9.2の向上を示した。特筆すべきは、WizardMathはOpenAIのChatGPT-3.5、AnthropicのClaude Instant-1、GoogleのPaLM-2などのモデルもGSM8kで大きく上回っていることである。

GSM8kベンチマーク上の主要なLLMモデルの性能。オレンジ色がクローズドソースモデル、青色がオープンソースモデル、緑色がWizardMath

 WizardMathの詳細やモデルの重みは、GitHubおよびHugging Faceで公開されている。

Source and Image Credits: Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Dongmei Zhang. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct.



Copyright © ITmedia, Inc. All Rights Reserved.