NII、130億パラメータのLLM構築　コーパスなども全公開　「今後の研究に資するため」

NIIは、パラメータ数130億の大規模言語モデル（LLM）「LLM-jp-13B」を公開した。アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。

[ITmedia] PC用表示関連情報

LINE

Hatena

　国立情報学研究所（NII）は10月20日、パラメータ数130億の大規模言語モデル（LLM）「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。

NIIが主宰するLLM勉強会の公式サイトより

　公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン（mC4／Wikipedia）、英語は約1450億トークン（The Pile／Wikipedia）、プログラムコード約100億トークン。

　計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights＆Biasesを利用した。

　NIIが主宰するLLM勉強会（LLM-jp）で7月から構築してきたLLM。公開したモデルは初期段階のものであり、評価値はこれまで日本で公開されたものと同程度。そのまま実用的なサービスに利用することは想定していないが、今後の研究に貢献するために現段階で公開した。

　今後、モデル学習用コーパスの検索ツールを公開する予定。産総研・東工大とも協力し、GPT-3級・1750億パラメータの日本語LLMの構築を目指す計画も発表している。