ITmedia NEWS > AI+ >

百花繚乱の大規模言語モデル その現状まとめ【2023年4月末版】清水亮の「世界を変えるAI」(1/3 ページ)

» 2023年04月25日 17時40分 公開
[清水 亮ITmedia]

 昨年末から急激に話題を呼んだChatGPT、その内部的なバージョンアップであるGPT-3.5とGPT-4はいずれもMicrosoftから強力な支援を受けた米OpenAIという企業が独占的に提供する大規模言語モデル(LLM)だ。

 それに呼応するかのように、Meta社からはLLaMA(ラマ)がリリースされ、LLaMAをChatGPTとの1万3千回の会話データで微調整したAlpaca(アルパカ)、AlpacaをShareGPT(GPTとの会話を有志がオープンにしたもの)のデータで微調整したVicuna(ビクーニャ)といった派生モデルが次々と登場した。

 しかし、LLaMAはMeta社の意向により「アカデミック用途限定」という縛りがある。またGPTの出力にはOpenAIの利用規定で「GPTの出力結果を元にGPTに対抗できる強力なAIを作ってはいけない」という制約があるため、AlpacaもVicunaも学術的な研究目的以外に使うことができない(汚染されている、という表現をされることもある)。

 特にVicunaは有志が改良に改良を重ね、家庭でも導入できる規模のコンピュータ上でも動作するため、企業内情報システムやゲームソフトなど応用できれば大変有用なものになりそうなだけに、学術目的だけに利用が限定されるのは非常にもったいない。

 その状況を打開すべく、Databricks社は自社の社員5000人による「クリーンな」1万5千回分の会話データセットを作り、「Dolly-v2」として公開した。これが今世代初の完全にオープンで自由な大規模言語モデルである。

 さらに昨年StableDiffusionによって画像生成AIを民主化した立役者であるStability.aiも、独自に構築したオープンなデータセットを用いた「クリーンかつ自由」な大規模言語モデルStableLMを公開し、大きな話題を呼んでいる。

不自由な大規模言語モデルと自由な大規模言語モデルの小競り合い

 また、LLaMAと同等のデータセットを作るオープンな試みであるRedPajamaというプロジェクトも立ち上がり、さながら現在は「不自由な大規模言語モデルと自由な大規模言語モデルの小競り合い」が起きている状態だ。あまりにも多くの技術やデータセット、モデルが登場するので表にまとめてみた。

モデル名 アーキテクチャ データセット 規模 開発主体 制約
GPT-3 Transformer ネット上の文字情報 175B OpenAI APIのみ、非公開
GPT-4 Transformer 非公開(動画・音声を含む) 非公開 OpenAI APIのみ、非公開
LLaMA Transformer LLaMa Dataset 13B-66B Meta 学術目的のみ
Alpaca Transformer Alpaca Dataset 13B Stanford 学術目的のみ
Vicuna Transformer ShareGPTの会話データ 7B-13B UCB,CMU,UCSD,etc. 学術目的のみ
Dolly-v2 Transformer Databricks社独自の会話データセット 7B-13B Databricks オープン、商用利用可
RWKV RWKV Pile 7B-13B BlinkDL オープン、商用利用可
Raven RWKV Alpaca Dataset 7B-13B BlinkDL 学術利用のみ
StableLM Transformer 拡張したPile 7B-13B Stability.ai オープン、商用利用可
StableLM-Tuned Transformer Alpaca Dataset 7B-13B Stability.ai 学術利用のみ
RedPajama Transformer RedPajama Dataset 13B(学習中) Together オープン、商用利用可
       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.