ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

コード専用生成AI「WizardCoder」、米Microsoftが公開 ベースはCode Llama、高い精度を達成Innovative Tech

» 2023年09月01日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米Microsoftなどに所属する研究者らは、米Metaが最近リリースしたCode LLM(コーディング専用大規模言語モデル)「Code Llama」をベースにしたコード専用生成AI「WizardCoder」を発表した。

 LLMの性能を評価するベンチマーク「HumanEval Benchmark」で、ChatGPT(GPT-3.5)やClaude2を上回る高い精度73.2%を達成し、存在感を示した。唯一下回ったのは、8月26日に同研究者らが計測したGPT-4(82.0%)のみ。ただし、3月に米OpenAIの公式テクニカルレポートが報告したGPT-4の数値67.0は上回っている。あくまでHumanEval Benchmarkによるものであることは留意したい。

 今回のWizardCoderは、モデル名「WizardCoder-Python-34B-V1.0」としてGitHubHugging Faceで公開されている。「WizardCoder-Python-13B-V1.0」も公開されている。

WizardCoderのリポジトリ
WizardCoder-Python-34B-V1.0と他のLLMとのHumanEval Benchmarkにおいての比較
HumanEval Benchmarkの計測結果。GPT-3.5とGPT-4は2つあるが、3月15日分はOpenAIのGPT-4公式レポートによって報告されたもの。8月26日は、同研究者らが最新のAPIで計測した結果という

 同研究者らは、先月にも米Hugging Face開発のCode LLM「StarCoder」をベースにしたWizardCoderをリリースしており、オープンソースCode LLMの中では最も高い精度を達成していた。

 これは、より正確に人間の指示に従うように微調整する「指示チューニング」(instruction-tuning)をStarCoderに適応させたモデルになる。プログラム作成の指示に対して、非常に精度高く動作するように訓練される。方法として「Evol-Instruct」という手法を使って、コード生成に特化した指示データを生成している。

Source and Image Credits: Luo, Ziyang, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, and Daxin Jiang. “WizardCoder: Empowering Code Large Language Models with Evol-Instruct.” arXiv preprint arXiv:2306.08568(2023).



Copyright © ITmedia, Inc. All Rights Reserved.