松尾 豊氏率いる松尾研、100億パラメータのLLM「Weblab-10B」を開発 日本語と英語に対応

東京大学松尾研究室は100億パラメータサイズの大規模言語モデル「Weblab-10B」を開発した。日本語と英語の2カ国語に対応する。

» 2023年08月19日 09時00分 公開
[田渕聖人ITmedia]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 東京大学松尾研究室(以下、松尾研)は2023年8月18日、日本語と英語の2カ国語に対応する100億パラメータサイズの大規模言語モデル(LLM)を事前学習と事後学習(ファインチューニング)によって開発し、モデルを公開した。

 このモデルは同研究室のドメイン名などから「Weblab-10B」と名付けられており、商用利用不可とされている。

松尾研は日本語と英語の2カ国語に対応する100億パラメータサイズの大規模言語モデル(LLM)Weblab-10Bを公開した(出典:松尾研のWebサイト)

松尾研が100億パラメータサイズの大規模言語モデルを開発

 松尾研によると、近年のLLMは、インターネットから収集した大量のテキストデータを学習に利用する。だがそのテキストデータの多くは、英語をはじめとした一部の主要言語で構成されており、それ以外の言語のテキストデータを大量に収集することには限界があったという。

 そこで同研究室は、日本語だけでなく英語のデータセットも学習に利用することで学習データ量を拡張し、言語間の知識転移によって日本語の精度を高めることを目的としたWeblab-10Bを開発した。

 Weblab-10Bを開発するにあたり、事前学習には代表的な英語のデータセット「The Pile」を、日本語のデータセットには「Japanese-mC4」を使用した。ファインチューニングには、「Alpaca(英語)」「Alpaca(日本語訳)」「Flan 2021(英語)」「Flan CoT(英語)」「Flan Dialog(英語)」という5つのデータセットを使用した。

 その結果、ファインチューニングの日本語データ比率が低いにもかかわらず、日本語言語理解ベンチマーク「JGLUE」の評価値が事前学習時と比べて66%から78%へと改善され、言語間の知識転移を確認できた。

Weblab-10Bによって生成されたサンプル文(出典:松尾研のWebサイト)

 松尾研は今後、Weblab-10Bの大規模化を進めるとともに、これを基にLLMの産業実装に向けた研究を推進する予定だ。なお、開発されたモデルのURLは以下の通りだ。

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ