米OpenAIの生成AI「GPT-4」を上回る性能をうたうAI「Xwin-LM」が、AIモデル共有サイト「Hugging Face」に公開されている。言語モデルのベンチマークサイト「AlpacaEval」でGPT-4を追い抜き1位を獲得したとしている。
開発者名は明記されていないが、GitHub上の履歴を参照すると中国科学院や清華大学の博士課程の研究者らが開発したようだ。
Xwin-LMは米Metaが公開したAI「Llama2」をベースにしており、教師ありファインチューニング、報酬モデル、リジェクトサンプリング、強化学習などを使って調整したものという。パラメータ数はLlama2と同じく70億、130億、700億の3つのモデルを用意。中でも最大である700億の「Xwin-LM-70B-V0.1」は、AlpacaEvalの評価基準である「Text-Davinci-003」(GPT-3のモデルの一つ)に対する勝率で95.57%を記録。勝率95.28%のGPT-4を追い抜いたとしている。
ただし、ベンチマークテスト上での勝利が現実的な性能を意味するわけではない点には注意したい。AIは決められた問題に特化し過ぎるとその他の問題への対応力が落ちる「過学習」という現象が知られている。他のベンチマークテストの結果も公開されており、5つ中4つのテストでText-davinci-003を上回ったとしているものの、残り1つでは及んでおらず、これらのテストにGPT-4は含まれないため、本当にGPT-4を上回る性能を体感できるかは未知数だ。
Xwin-LM-70B-V0.1のファイルサイズは275GB。ベースとなっているLlama2 70Bの実行には米Nvidiaのデータセンター向けGPU「A100」が4基必要(工夫すれば1基でも動かせる報告あり)とされているため、モデル自体が公開されていても個人での実行は簡単ではない。実際の性能については他の研究者などの報告を待つ必要がありそうだ。なお、利用ライセンスはLlama2(商用可)を継承していると思われるが詳細は不明。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR