ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

米Microsoftら、“コーディング専用”大規模言語モデル「WizardCoder」開発 文章から高品質なコード出力Innovative Tech

» 2023年07月21日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Microsoftや香港浸会大学に所属する研究者らが発表した論文「WizardCoder: Empowering Code Large Language Models with Evol-Instruct」は、米Hugging Faceが5月に発表したCode LLM(コーディング専用大規模言語モデル)「StarCoder」を軽量で高精度に強化する手法を提案した研究報告である。リポジトリはこちら

WizardCoderとの対話例
WizardCoderのリポジトリから引用

 コード生成に関連する課題に取り組むため、多数のCode LLMが提案されている。これらのCode LLMは、大量のコードデータを使用して事前学習を行うことで、さまざまなコード関連のタスクで優れた性能を発揮し、素晴らしいパフォーマンスを示している。しかし、既存のモデルのほとんどは、コードデータを用いて事前学習を行っているが、命令データの微調整は行っていない。

 この研究では、命令データを自動生成する「Evol-Instruct」をコードのドメインに適応させることで、複雑な命令の微調整でCode LLMを強化する「WizardCoder」を提案する。コード固有のEvol-Instructを通して複雑なコード命令データを生成することにより、SOTAオープンソースのCode LLMである「StarCoder」の機能を強化する。

 これを実現するために、まず基本的なコード命令データである「Code Alpaca」を進化させ、次に新たに作成したコード命令学習セットを用いてStarCoderの微調整し、WizardCoderを得る。

 HumanEval、HumanEval+、MBPP、DS-100の4つのコード生成ベンチマークで得られた実験結果は、WizardCoderが他の全てのオープンソースのCode LLMを超え、最先端の性能(SOTA)を達成したことを示した。

 クローズドソースLLMと比較した場合は、GPT-4、GPT-3.5に続き3位であった。特筆すべきは、他のモデルに比べてサイズが大幅に小さいことである。サイズが小さいにもかかわらず、Claude、Bard、PaLM、PaLM-2、LaMDAなどと比較して、コード生成で優れた結果を達成した。

クローズドソースLLMの比較の図

Source and Image Credits: Luo, Ziyang, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. “WizardCoder: Empowering Code Large Language Models with Evol-Instruct.” arXiv preprint arXiv:2306.08568(2023).



Copyright © ITmedia, Inc. All Rights Reserved.