OpenAIの独走は続く？　「ユーザーが選ぶLLMのコンテスト」の結果から考察：CIO Dive

LLMが多く登場する中で、最も優れたものは何か？　ユーザー参加型のコンテストの結果から、「最も優れたLLM」の条件と、企業の選定基準を考察した。

LINE

Hatena

　次々に新しいLLM（大規模言語モデル）が登場した2023年。同年12月、ユーザーが最も優れたLLMを選ぶコンテンストが開催された。1位に輝いたのは「ChatGPT」でセンセーションを巻き起こしたOpenAIのLLMが提供する「GPT-4 Turbo」だった。

企業がLLMを選ぶ基準は？

　コンテストはユーザーがチャットbotに複数回質問し、57におよぶタスクを実施した結果を評価する形式で実施された（編注）。その結果、OpenAIの「GPT-4 Turbo」が1位にランクインし、競合を圧倒した（注1）。

　評価対象となるチャットbotは匿名で、ユーザーの投票結果を集計して順位が決まる形式だ。ユーザーは2つのLLMに任意の質問をし、理想的な回答を決めて、2つのLLMのうち「より良い」と評価した方に投票する（注2）。投票が完了すると、ユーザーが選択したモデルが何だったかが明かされる仕組みだ。

　このコンテストに参加したのはGoogleの「Gemini」、Metaの「Llama 2」、The Technology Innovation Instituteの「Falcon」など、20以上のLLMだ。　

　2023年12月20日（現地時間）に更新された結果によると、Large Model Systems Organizationが作成したスコア表のトップ3は全てOpenAIのLLMが占めた。トップ5にはAnthropicの「Claude 1」と「Claude 2」が入った（注3）（注4）。

　OpenAIは2022年に「ChatGPT」を発表し、生成AIツールの急速な普及を引き起こした。今や企業は数十あるLLMから選べるようになった。理想的なモデルを見つけるためのテストメカニズムの設計は企業の裁量次第だ。

　Large Model Systems Organizationは、「LLMアシスタントのベンチマークは非常に困難だ。なぜなら、問題が途中で変更したり修正されたりする可能性があり、応答品質を自動的に評価するためのプログラムを書くことは極めて難しいからだ。このような場合は通常、一対比較（選択肢を2つ1組として優れた方を選択する比較判断の方法）に基づく人間の評価に頼らざるを得ない」と2023年5月、同社の公式ブログに投稿した（注5）。

　技術リーダーは実装するLLMを評価する際に、信頼性やパフォーマンス、セキュリティ、既存の技術スタックとの相互運用性を考慮する。最近、OpenAIの幾つかのモデルが「怠惰」になったと噂されるなど、動作に変化があることが確認された（注6）。

　CIO（最高情報責任者）はLLMの適切な管理を徹底し、変更が発生した場合やその後の運用、さらにはエンドユーザーの体験への影響を洗い出す必要がある。また、ITベンダーにもその過程で果たすべき役割がある。

　スタンフォード大学のジェームズ・ズー助教（生物医学データサイエンスが専門）は、「ITベンダーができることの一つは、LLMのチェックポイントを増やすことだ。実際に、われわれの以前の研究が発表された後、OpenAIは2023年3月の（GPT-4の）リリースから以前のモデルにおけるチェックポイントを維持することにした。なぜかと言うと、LLMの挙動は変化するからだ。一部のタスクでは2023年3月にリリースされたLLMの方がその後のバージョンよりも優れていた」と、「CIO Dive」に語った（注7）。

　「LLMが変更されても、（チェックポイントが残っていれば）企業は以前のバージョンに戻すことができる。だから、チェックポイントを維持するベンダーは少し余分な"保証"を企業に提供していることになる」（ズー氏）

（編注）このコンテストは、カリフォルニア大学バークレー校の学生と教授陣が共同で設立した「LMSYS」が運営するLLMのベンチマークプラットフォーム「Chatbot Arena」で実施された。

（注1）LMSYS Chatbot Arena Leaderboard（Spaces）
（注2）Chatbot Arena : Benchmarking LLMs in the Wild（HuggingFace）
（注3）The Large Model Systems Organization develops large models and systems that are open, accessible, and scalable.（LMSYS Org）
（注4）The ABCs of AI tools（CIO Dive）
（注5）Chatbot Arena: Benchmarking LLMs in the Wild with Elo Ratings（LMSYS Org）
（注6）ChatGPT’s ‘winter break’ is the latest sign of model drifts（CIO Dive）
（注7）With new versions of ChatGPT, improvement is not guaranteed, researchers find（CIO Dive）

（初出）Generative AI battleground: Users put LLMs to the test

OpenAIの独走は続く？ 「ユーザーが選ぶLLMのコンテスト」の結果から考察：CIO Dive

企業がLLMを選ぶ基準は？

関連記事

OpenAIの独走は続く？　「ユーザーが選ぶLLMのコンテスト」の結果から考察：CIO Dive