米NVIDIAは6月14日(現地時間)、LLMのトレーニング用オープン合成データ生成モデルシリーズ「Nemotron-4 340B」を発表した。独自のオープンモデルライセンス(PDF)の下、「あらゆる業界の商用アプリケーション向けLLM」のトレーニングに使うデータセットを合成できるとしている。つまり、商用利用も可能だ。
LLMの開発では、高品質で多様なデータセットでのトレーニングが不可欠だが、ネットなどから収集したデータには偏りや不正確なものが含まれる可能性があり、量にも限りがある。そのため、合成データの生成に注目が集まっている。
Nemotron-4 340Bには、合成データ生成のパイプラインを形成するbase、instruct、rewardの3つのモデルが含まれる。baseモデルは、9兆個のトークでトレーニングされたカスタマイズの基盤となるモデル。独自データを組み込むことで、このモデルをカスタマイズできる。instructモデルは、現実世界のデータの特性を模倣した多様な合成データを生成するよう設計されており、ドメイン固有の合成トレーニングテキストを生成する。rewardモデルは、生成された出力の品質を評価するためのモデル。instructの出力が、設定した基準とどの程度一致しているかに基づいてスコアを付けて高品質の応答を促進し、AIシステムの改善を促す。
NVIDIAは、このモデルは「8つのGPUを備える単一のDGX H100に収まるサイズになっている」としている。
モデルは、オープンソースフレームワークNvidia NeMoおよびNvidia TensorRT-LLMライブラリを使用した推論用に最適化されている。すべてのデータはHuggingfaceで入手できる。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR