日本語に強い大規模言語モデル「Swallow」 産総研と東工大が公開 事前学習用の日本語データに工夫
産業技術総合研究所と東京工業大学の研究チームは、日本語に強い大規模言語モデル(LLM)「Swallow」を公開した。
産業技術総合研究所と東京工業大学の研究チームは12月19日、日本語に強い大規模言語モデル(LLM)「Swallow」を公開した。米Metaが開発したLLM「Llama 2シリーズ」をベースに日本語能力を改善させたもの。ライセンスは「LLAMA 2 Community License」で、研究や商業目的で利用できる。
今回公開したのは、パラメータ数が70億(7B)、130億(13B)、700億(70B)のモデル3種類。Llama 2シリーズが持つ高い言語処理能力を維持しながら日本語能力を強化することを目指した。
このため、AIモデルに日本語の文字や単語などの語彙を追加し、新たに開発した日本語データで継続事前学習(学習済みのLLMに対して追加で事前学習を行う手法で、異なる言語などで言語モデルを活用するときに使われる)を行った。結果、日本語に関するベンチマークデータで、全モデルがベースモデルよりも高い性能を示したという。
着目したのは日本語データセット
研究チームが今回着目したのは、事前学習に使った日本語データだ。従来の日本語LLMの学習には「CC-100」「mC4」「OSCAR」などの既存のデータセットの日本語部分を使っていた。しかし、これにはWebページのHTMLをテキスト化する際のノイズが混入したり、最新の情報や知識を収録していなかったりする問題があった。また、もともと多言語のデータセットであるため、日本語に特化してデータの品質を高める工夫がなかった。
そこで研究チームは、Webサイトを収集してアーカイブを無償公開している非営利団体「Common Crawl」が配布しているアーカイブ(2020〜2023年に収集した約634億ページ)から日本語のテキストを独自に抽出・精錬し、約3121億文字(約1.73億ページ)からなる日本語のデータベース(コーパス)を構築した。これは商用利用が可能なものとしては最大規模であるという。
研究チームは「今回のモデル公開によって、高度な日本語処理が求められる日常生活・産業現場のより多くの場面で、対話システムなどのAI技術の利活用を推進できる」と成果を説明。日本でのLLMの研究開発・活用がさらに進み、製品開発や技術革新が進むことを期待している。
関連記事
- マネーフォワード、大規模言語モデル「houou」公開 理研との共同研究 日本語の指示データ2900件を追加学習に利用
マネーフォワードは、理化学研究所(理研)と共同開発した大規模言語モデル(LLM)を公開した。出力精度を上げるため、日本語の指示データ(インストラクションデータ)2903件を追加学習に活用したのが特徴。 - ChatGPTでの業務効率化を“断念”──正答率94%でも「ごみ出し案内」をAIに託せなかったワケ 三豊市と松尾研の半年間
「ごみ出し案内」業務にはChatGPTを“活用しない”と決断──生成AIを使った業務効率化を検証してきた、香川県三豊市がそんな発表をした。実証実験には松尾研も協力したが、思ったような成果が出せなかったという。一体なぜか? - サイバーエージェント、再び大規模言語モデルを無料公開 3万2000トークンに対応 商用利用もOK
サイバーエージェントは、商用利用可能な日本語大規模言語モデルを無料公開した。 - NTT、大規模言語モデル「tsuzumi」開発 24年3月に商用サービス提供へ
NTTは、独自の大規模言語モデル「tsuzumi」を開発したと発表した。2024年3月に商用サービスとして提供を始める。 - 「世界トップレベルの大規模言語モデルの開発に着手」──産総研らが表明 目指すのは“GPT-3級の日本語LLM”
「世界トップレベルの大規模言語モデル(LLM)の開発を始める」──産業技術総合研究所は、そんな声明を発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.