昨年末から急激に話題を呼んだChatGPT、その内部的なバージョンアップであるGPT-3.5とGPT-4はいずれもMicrosoftから強力な支援を受けた米OpenAIという企業が独占的に提供する大規模言語モデル(LLM)だ。
それに呼応するかのように、Meta社からはLLaMA(ラマ)がリリースされ、LLaMAをChatGPTとの1万3千回の会話データで微調整したAlpaca(アルパカ)、AlpacaをShareGPT(GPTとの会話を有志がオープンにしたもの)のデータで微調整したVicuna(ビクーニャ)といった派生モデルが次々と登場した。
しかし、LLaMAはMeta社の意向により「アカデミック用途限定」という縛りがある。またGPTの出力にはOpenAIの利用規定で「GPTの出力結果を元にGPTに対抗できる強力なAIを作ってはいけない」という制約があるため、AlpacaもVicunaも学術的な研究目的以外に使うことができない(汚染されている、という表現をされることもある)。
特にVicunaは有志が改良に改良を重ね、家庭でも導入できる規模のコンピュータ上でも動作するため、企業内情報システムやゲームソフトなど応用できれば大変有用なものになりそうなだけに、学術目的だけに利用が限定されるのは非常にもったいない。
その状況を打開すべく、Databricks社は自社の社員5000人による「クリーンな」1万5千回分の会話データセットを作り、「Dolly-v2」として公開した。これが今世代初の完全にオープンで自由な大規模言語モデルである。
さらに昨年StableDiffusionによって画像生成AIを民主化した立役者であるStability.aiも、独自に構築したオープンなデータセットを用いた「クリーンかつ自由」な大規模言語モデルStableLMを公開し、大きな話題を呼んでいる。
また、LLaMAと同等のデータセットを作るオープンな試みであるRedPajamaというプロジェクトも立ち上がり、さながら現在は「不自由な大規模言語モデルと自由な大規模言語モデルの小競り合い」が起きている状態だ。あまりにも多くの技術やデータセット、モデルが登場するので表にまとめてみた。
モデル名 | アーキテクチャ | データセット | 規模 | 開発主体 | 制約 |
---|---|---|---|---|---|
GPT-3 | Transformer | ネット上の文字情報 | 175B | OpenAI | APIのみ、非公開 |
GPT-4 | Transformer | 非公開(動画・音声を含む) | 非公開 | OpenAI | APIのみ、非公開 |
LLaMA | Transformer | LLaMa Dataset | 13B-66B | Meta | 学術目的のみ |
Alpaca | Transformer | Alpaca Dataset | 13B | Stanford | 学術目的のみ |
Vicuna | Transformer | ShareGPTの会話データ | 7B-13B | UCB,CMU,UCSD,etc. | 学術目的のみ |
Dolly-v2 | Transformer | Databricks社独自の会話データセット | 7B-13B | Databricks | オープン、商用利用可 |
RWKV | RWKV | Pile | 7B-13B | BlinkDL | オープン、商用利用可 |
Raven | RWKV | Alpaca Dataset | 7B-13B | BlinkDL | 学術利用のみ |
StableLM | Transformer | 拡張したPile | 7B-13B | Stability.ai | オープン、商用利用可 |
StableLM-Tuned | Transformer | Alpaca Dataset | 7B-13B | Stability.ai | 学術利用のみ |
RedPajama | Transformer | RedPajama Dataset | 13B(学習中) | Together | オープン、商用利用可 |
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR