GPT-4を上回るオープンなLLM誕生？　中国研究者らが「Xwin-LM」公開

» 2023年09月21日 06時32分公開

[井上輝一，ITmedia]

　米OpenAIの生成AI「GPT-4」を上回る性能をうたうAI「Xwin-LM」が、AIモデル共有サイト「Hugging Face」に公開されている。言語モデルのベンチマークサイト「AlpacaEval」でGPT-4を追い抜き1位を獲得したとしている。

「Xwin-LM」の公開ページ

　開発者名は明記されていないが、GitHub上の履歴を参照すると中国科学院や清華大学の博士課程の研究者らが開発したようだ。

　Xwin-LMは米Metaが公開したAI「Llama2」をベースにしており、教師ありファインチューニング、報酬モデル、リジェクトサンプリング、強化学習などを使って調整したものという。パラメータ数はLlama2と同じく70億、130億、700億の3つのモデルを用意。中でも最大である700億の「Xwin-LM-70B-V0.1」は、AlpacaEvalの評価基準である「Text-Davinci-003」（GPT-3のモデルの一つ）に対する勝率で95.57％を記録。勝率95.28％のGPT-4を追い抜いたとしている。

AlpacaEval上ではXwin-LMがGPT-4を追い抜きトップに

プロンプトに対する回答例。GPT-4とXwin-LMの比較

　ただし、ベンチマークテスト上での勝利が現実的な性能を意味するわけではない点には注意したい。AIは決められた問題に特化し過ぎるとその他の問題への対応力が落ちる「過学習」という現象が知られている。他のベンチマークテストの結果も公開されており、5つ中4つのテストでText-davinci-003を上回ったとしているものの、残り1つでは及んでおらず、これらのテストにGPT-4は含まれないため、本当にGPT-4を上回る性能を体感できるかは未知数だ。

その他のベンチマークテストにおけるXwin-LM各モデルのスコア

　Xwin-LM-70B-V0.1のファイルサイズは275GB。ベースとなっているLlama2 70Bの実行には米Nvidiaのデータセンター向けGPU「A100」が4基必要（工夫すれば1基でも動かせる報告あり）とされているため、モデル自体が公開されていても個人での実行は簡単ではない。実際の性能については他の研究者などの報告を待つ必要がありそうだ。なお、利用ライセンスはLlama2（商用可）を継承していると思われるが詳細は不明。

東大発AIベンチャー、最大級の日本語LLM公開　metaの「Llama 2」を日本語化
AIスタートアップのELYZAは29日、日本語LLM（大規模言語モデル）「ELYZA-japanese-Llama-2-7b」を公開した。
ChatGPT（3.5）に匹敵する「Llama 2」をローカルPCで動かしてみた
生成AIのトップランナーといえば、米OpenAIが提供するGPT-4などを使ったChatGPTですが、その対抗馬として期待されているのが米Metaが提供する大規模言語モデル「Llama 2」です。Llama 2ならば自宅のローカルPCでも動作させられるかもしれません。ということで、Text Generation web UIを使って、Llama 2を試してみました。
無料で商用可、ChatGPT（3.5）に匹敵する生成AI「Llama 2」　Metaが発表、Microsoftと優先連携
米Metaは7月18日（現地時間）、大規模言語モデル「Llama 2」を発表した。利用は無料で商用利用も可能としている。最大サイズの70億パラメーターモデルは「ChatGPT（の3月1日版）と互角」（同社）という。