“学習データも全てオープン”なLLM、NIIが公開　GPT-3級モデルのプレビュー版

公開 2024年09月17日 16時36分

[ITmedia]

印刷する

　国立情報学研究所（NII）は9月17日、パラメータ数約1720億の大規模言語モデル（LLM）のプレビュー版「LLM-jp-3 172B beta1」を公開した。NIIが開発するLLMは、データをフルスクラッチで学習しており、AIモデルの他に学習データもオープンになっているのが特徴。プレビュー版モデルは、学習データの約3分の1までを学習した段階のものになる。

“学習データも全てオープン”なLLM、NIIが公開

　今回公開したLLMのパラメータ数は約1720億で、米OpenAIのLLM「GPT-3」と同程度の規模。ベースモデルは米MetaのLLM「LlaMA-2」を使った。

　学習用データには、約2.1兆トークン（おおよそ単語数の意）のデータを用意。そのうち日本語は約5920億トークンで「WebアーカイブCommon Crawl（CC）全量から抽出・フィルタリングした日本語テキスト」「国立国会図書館インターネット資料収集保存事業（WARP）で収集されたWebサイトのURLを基にクロールしたデータ」「日本語Wikipedia」「KAKEN（科学研究費助成事業データベース）における各研究課題の概要テキスト」を利用した。

　この他に、英語を約9500億トークンや、中国語や韓国語などの他言語を約10億トークン（中国語・韓国語）、プログラムコードを約1140億トークンを学習。ここまでの約1.7兆トークンのデータに加えて、日本語学習データのうち約4000億トークンは2回学習しており、学習データの合計は約2.1兆トークンとなる。