“数学特化”の大規模言語モデル「WizardMath」　米Microsoftなどが開発　Llamaモデルを強化：Innovative Tech

» 2023年08月25日 08時00分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　米Microsoftと中国科学院に所属する研究者らが発表した論文「WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct」は、数学的推理能力を強化するモデルを提案した研究報告である。このモデルは、オープンソースの事前学習済み大規模言語モデル（LLM）である「Llama-2」に対して適用することで実現する。

　米MetaのLlamaモデルシリーズは、オープンソース革命を引き起こし、クローズドソースのLLMとの差を急速に縮めている。しかし、これらオープンソースモデルは、数学や科学の問題解決など、複雑な多段階の推論が求められる場面での課題を抱えている。

　研究では、この問題点に着目し、Llama-2という最先端のオープンソースLLMの数学的推論能力を向上させる手法「WizardMath」を提案する。具体的には、「Reinforcement Learning from Evol-Instruct Feedback」（RLEIF）という新しい方法で微調整を行う。

　この手法では、Evol-Instructを使用して多様な数学指示データを生成し、Training Instruction Reward Model（IRM）、Process-supervised Reward Model （PRM）を訓練している。

RLEIFの概要

　WizardMathは、GSM8kとMATHという2つの数学的推論ベンチマークで実験を行った結果、全てのオープンソースLLMを大きく上回る性能を発揮した。具体的には、GSM8kにおいては+24.8、MATHにおいては+9.2の向上を示した。特筆すべきは、WizardMathはOpenAIのChatGPT-3.5、AnthropicのClaude Instant-1、GoogleのPaLM-2などのモデルもGSM8kで大きく上回っていることである。

GSM8kベンチマーク上の主要なLLMモデルの性能。オレンジ色がクローズドソースモデル、青色がオープンソースモデル、緑色がWizardMath

　WizardMathの詳細やモデルの重みは、GitHubおよびHugging Faceで公開されている。

Source and Image Credits: Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Dongmei Zhang. WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct.

米Microsoftら、“コーディング専用”大規模言語モデル「WizardCoder」開発　文章から高品質なコード出力
米Microsoftや香港浸会大学に所属する研究者らは、米Hugging Faceが5月に発表したCode LLM（コーディング専用大規模言語モデル）「StarCoder」を軽量で高精度に強化する手法を提案した研究報告を発表した。
数学の未解決問題「アインシュタイン問題」を“完全解決”する新図形発見　「The hat」を改良
英国の数学者ら、カナダのウォータールー大学と米National Museum of Mathematicsに所属する研究者らは、繰り返しパターンを作らず、鏡像なしで、2次元の表面を無限に敷き詰めることができる単一の非周期タイルを発見した研究報告を発表した。
GPT-4の精度は悪化している？　3月に解けた数学の問題解けず　GPT-3.5にも敗北──米国チームが検証
「GPT-4の精度は時間と共に変わっている」──そんな研究成果を米スタンフォード大学と米カリフォルニア大学バークレー校の研究チームが発表した。3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。
“ABC予想証明”の欠陥発見に賞金1.4億円　ドワンゴ創業者の川上さんが設置
数学の未解決問題「ABC予想」を証明する理論の欠陥を指摘できれば賞金1.4億円──一般社団法人日本財団ドワンゴ学園準備会は、そんな取り組みを始めると発表した。
東大松尾研、日英対応の大規模言語モデル公開　100億パラメータ、精度は「国内オープンソース最高水準」
東大松尾研が、日英の2カ国語に対応した100億パラメータサイズの大規模言語モデル（LLM）を、非商用のオープンソースで公開した。