“数学特化”の大規模言語モデル「WizardMath」　米Microsoftなどが開発　Llamaモデルを強化：Innovative Tech

米Microsoftと中国科学院に所属する研究者らは、数学的推理能力を強化するモデルを提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　米Microsoftと中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル（LLM）である「Llama-2」に対して適用することで実現する。

　米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのLLMとの差を急速に縮めている。しかし、これらオープンソースモデルは、数学や科学の問題解決など、複雑な多段階の推論が求められる場面での課題を抱えている。

　研究では、この問題点に着目し、Llama-2という最先端のオープンソースLLMの数学的推論能力を向上させる手法「WizardMath」を提案する。具体的には、「Reinforcement Learning from Evol-Instruct Feedback」（RLEIF）という新しい方法で微調整を行う。

　この手法では、Evol-Instructを使用して多様な数学指示データを生成し、Training Instruction Reward Model（IRM）、Process-supervised Reward Model （PRM）を訓練している。

RLEIFの概要

　WizardMathは、GSM8kとMATHという2つの数学的推論ベンチマークで実験を行った結果、全てのオープンソースLLMを大きく上回る性能を発揮した。具体的には、GSM8kにおいては+24.8、MATHにおいては+9.2の向上を示した。特筆すべきは、WizardMathはOpenAIのChatGPT-3.5、AnthropicのClaude Instant-1、GoogleのPaLM-2などのモデルもGSM8kで大きく上回っていることである。

GSM8kベンチマーク上の主要なLLMモデルの性能。オレンジ色がクローズドソースモデル、青色がオープンソースモデル、緑色がWizardMath

　WizardMathの詳細やモデルの重みは、GitHubおよびHugging Faceで公開されている。

Source and Image Credits: Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Dongmei Zhang. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct.

“数学特化”の大規模言語モデル「WizardMath」　米Microsoftなどが開発　Llamaモデルを強化：Innovative Tech

Innovative Tech：

関連記事

関連リンク

“数学特化”の大規模言語モデル「WizardMath」 米Microsoftなどが開発 Llamaモデルを強化：Innovative Tech

Innovative Tech：

関連記事

関連リンク

“数学特化”の大規模言語モデル「WizardMath」　米Microsoftなどが開発　Llamaモデルを強化：Innovative Tech