国立情報学研究所(NII)は10月20日、パラメータ数130億の大規模言語モデル(LLM)「LLM-jp-13B」を公開した。初期段階のモデルだが、アカデミアや産業界の研究開発に資するため、コーパスやツールなどを含めてすべてオープンにする。
公開したLLMの学習データ量は合計約3000億トークン。うち日本語は約1450億トークン(mC4/Wikipedia)、英語は約1450億トークン(The Pile/Wikipedia)、プログラムコード約100億トークン。
計算資源としては、大学や研究機関が共同運営する仮想化環境・データ活用社会創成プラットフォーム「mdx」を12ノード活用。モデル構築にはMicrosoftのDeepSpeedを、モデル構築時の監視やログの保存には、モデル開発プラットフォームのWeights&Biasesを利用した。
NIIが主宰するLLM勉強会(LLM-jp)で7月から構築してきたLLM。公開したモデルは初期段階のものであり、評価値はこれまで日本で公開されたものと同程度。そのまま実用的なサービスに利用することは想定していないが、今後の研究に貢献するために現段階で公開した。
今後、モデル学習用コーパスの検索ツールを公開する予定。産総研・東工大とも協力し、GPT-3級・1750億パラメータの日本語LLMの構築を目指す計画も発表している。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR