研究開発プロジェクトの具体的な活動としては、「まず、大規模なコーパスを用意する必要がある。それをベースに大規模な計算機資源を使ってLLMを構築する。そして、そのLLMをチューニングして評価する必要がある」(黒橋氏)ことから、その流れにのっとって「コーパスワーキンググループ(WG)」(幹事:早稲田大学の河原大輔教授)、「モデル構築WG」(幹事:東北大学の鈴木潤教授)、「チューニング・評価WG」(幹事:東京大学の宮尾祐介教授)の3つのWGを設置した(図4)。
コーパスWGでは、まず文章を最小単位に分ける「Tokenizer」を整備する。黒橋氏によると、「語彙(ごい)サイズは日本語3万、英語2万からなる5万トークンのものを設計する」とのこと。なぜならば、GPTなどの海外モデルは英語が中心なので、日の丸LLMは「日本語力」を前面に押し出すことが最大の差別化ポイントになるからだ。
そして、13Bパラメータモデル学習用に270Bトークンのコーパスを整備した「コーパスv1」を構築する。さらに175Bパラメータモデル学習用に、「Common Crawl」(公開されているWebコーパス)から日本語テキストを抽出し、「コーパスv2」の構築を目指す構えだ(図5)。
モデル構築WGでは、実行環境として、9大学と2研究所の協働事業体運営によるデータプラットフォーム「mdx」を計算機資源として利用し、LLM-jp専用の仮想化環境を構築した。黒橋氏によると、「現在、コーパスv1を用いて12ノード96GPUで学習している」とのことだ。
モデル構築WGの活動内容を記した図6下段のグラフは、ロス関数の推移を示したものだ。要は、1.3Bモデルに続いて13Bモデルも順調に動いていることを表している。
チューニング・評価WGでは、構築したモデルをチューニングして評価する。同WGで作成した評価ツールによると、「現在のところ、良好な結果が得られている」(黒橋氏)とのことだ。
また、同氏は「このWGでは、どんどん賢くなるLLMをどうやって評価するかという難しい問題に対処しなければならない。まずは多様な評価データセットをどうつくるか。多くの研究グループの協力を得ることが重要になる」と述べた(図7)。
最後に、黒橋氏は次のように語った。
「LLMの賢さやこれからの進化は、今後の人類の知の基盤になり得る。LLMの研究開発は、もはやビッグサイエンスだ。LLM-jpはそれに取り組むオープンな基盤として貢献していきたい。2023年度中に開発予定の175Bモデルをベースに、LLMに関するさまざまな課題や多様な分野での活用に取り組みたい」
まさに、日の丸LLMの研究開発への決意表明とも受け取れる発言だ。175Bモデルは先述にあるように、GPT-3と同等レベルだ。その日本語の理解や生成能力はどれほどのものになるか。できれば、一般にも試せるようにしていただきたい。黒橋氏が懸念として述べたように、「日本版LLM」を日本として保持することは非常に重要だと筆者も考える。その意味でも大いに注目していきたい。
フリージャーナリストとして「ビジネス」「マネジメント」「IT/デジタル」の3分野をテーマに、複数のメディアで多様な見方を提供する記事を執筆している。電波新聞社、日刊工業新聞社などで記者およびITビジネス系月刊誌編集長を歴任後、フリーに。主な著書に『サン・マイクロシステムズの戦略』(日刊工業新聞社、共著)、『新企業集団・NECグループ』(日本実業出版社)、『NTTドコモ リアルタイム・マネジメントへの挑戦』(日刊工業新聞社、共著)など。1957年8月生まれ、大阪府出身
Copyright © ITmedia, Inc. All Rights Reserved.