松尾豊氏率いる松尾研、100億パラメータのLLM「Weblab-10B」を開発　日本語と英語に対応

東京大学松尾研究室は100億パラメータサイズの大規模言語モデル「Weblab-10B」を開発した。日本語と英語の2カ国語に対応する。

[田渕聖人，ITmedia] PC用表示関連情報

LINE

Hatena

　東京大学松尾研究室（以下、松尾研）は2023年8月18日、日本語と英語の2カ国語に対応する100億パラメータサイズの大規模言語モデル（LLM）を事前学習と事後学習（ファインチューニング）によって開発し、モデルを公開した。

　このモデルは同研究室のドメイン名などから「Weblab-10B」と名付けられており、商用利用不可とされている。

松尾研は日本語と英語の2カ国語に対応する100億パラメータサイズの大規模言語モデル（LLM）Weblab-10Bを公開した（出典：松尾研のWebサイト）

松尾研が100億パラメータサイズの大規模言語モデルを開発

　松尾研によると、近年のLLMは、インターネットから収集した大量のテキストデータを学習に利用する。だがそのテキストデータの多くは、英語をはじめとした一部の主要言語で構成されており、それ以外の言語のテキストデータを大量に収集することには限界があったという。

　そこで同研究室は、日本語だけでなく英語のデータセットも学習に利用することで学習データ量を拡張し、言語間の知識転移によって日本語の精度を高めることを目的としたWeblab-10Bを開発した。

　Weblab-10Bを開発するにあたり、事前学習には代表的な英語のデータセット「The Pile」を、日本語のデータセットには「Japanese-mC4」を使用した。ファインチューニングには、「Alpaca（英語）」「Alpaca（日本語訳）」「Flan 2021（英語）」「Flan CoT（英語）」「Flan Dialog（英語）」という5つのデータセットを使用した。

　その結果、ファインチューニングの日本語データ比率が低いにもかかわらず、日本語言語理解ベンチマーク「JGLUE」の評価値が事前学習時と比べて66％から78％へと改善され、言語間の知識転移を確認できた。

Weblab-10Bによって生成されたサンプル文（出典：松尾研のWebサイト）

　松尾研は今後、Weblab-10Bの大規模化を進めるとともに、これを基にLLMの産業実装に向けた研究を推進する予定だ。なお、開発されたモデルのURLは以下の通りだ。

関連情報

エンタープライズ品質のAI　IT部門に課される課題
生成AIブームをきっかけに改めて企業におけるAIの利用が注目を集める。全社規模で多様なAIモデルを扱い、成果を挙げるにはデータサイエンティストだけでなくIT部門の強いリーダーシップが必要になると目されているが、課題も多い。
Microsoftが見解を公表　「AIは“現場仕事”をどう変えるか」
「AIは仕事をどう変えるのか」は、ホワイトカラーだけの問題ではない。AIの活用によって現場部門で働く担当者の仕事はどう変わるのか。Microsoftの見解を紹介する。
経産省、生成AI時代の人材・スキルについて方針発表
経産省は生成AIのDXへの影響と必要な人材・スキルについての考え方を発表した。生成AIの社会への影響や人材育成の必要性、政策対応などが含まれており、今後の技術変化に応じて議論するとしている。
AI導入の評価指標はROIではない　先行企業は何をどう評価しているか
話題を集める生成AIだが、興味本位で利用するだけでは意味がない。企業においては、新技術の導入による時間と生産性の向上を測定することが極めて重要だ。

松尾豊氏率いる松尾研、100億パラメータのLLM「Weblab-10B」を開発　日本語と英語に対応

松尾研が100億パラメータサイズの大規模言語モデルを開発

関連記事

関連リンク

松尾 豊氏率いる松尾研、100億パラメータのLLM「Weblab-10B」を開発 日本語と英語に対応

松尾研が100億パラメータサイズの大規模言語モデルを開発

関連記事

関連リンク

松尾豊氏率いる松尾研、100億パラメータのLLM「Weblab-10B」を開発　日本語と英語に対応