ELYZAはMetaのLlama 2をベースにした新しい日本語の大規模言語モデルを開発した。性能はGPT-3.5に匹敵するとされており、研究および商用利用が可能となっている。
この記事は会員限定です。会員登録すると全てご覧いただけます。
ELYZAは2023年8月29日、Metaが開発した70億パラメータの大規模言語モデル(LLM)「Llama 2」に、約180億トークンの日本語テキストで追加事前学習を実施した日本語LLM「ELYZA-japanese-Llama-2-7b」を開発した。
ELYZA-japanese-Llama-2-7bの学習には、日本語Webコーパス(自然言語の文書を大量に集めたデータベース)「OSCAR」や「Wikipedia」などに含まれている日本語テキストが使われた。
ELYZAはELYZA-japanese-Llama-2-7bの他、このモデルに独自の事後学習を施した「ELYZA-japanese-Llama-2-7b-instruct」や、Llama 2に日本語の語彙(ごい)を追加して高速化を図った「ELYZA-japanese-Llama-2-7b-fast/ELYZA-japanese-Llama-2-7b-fast-instruct」も発表した。これらのモデルは「LLAMA 2 Community License」のライセンスに準拠しており、ユーザーポリシーに準拠する限りにおいて研究および商業目的での利用が可能とされている。
ELYZAによると、ELYZA-japanese-Llama-2-7bは性能評価の結果、1750億パラメータを有する「GPT-3.5」(text-davinci-003)に匹敵するスコアを記録しており、日本語の公開モデルの中では最高水準の性能だと評価しているという。
Llama 2には130億または700億パラメータモデルのモデルが存在しており、これらのモデルの本語化にもにも着手しており、完成後には公開が検討されている。ELYZAはこの取り組みを通じて研究室やスタートアップ、個人などでも日本語LLMの研究開発に取り組める土壌を整備し、この研究を促進させることを目指すとしている。
Llama 2は2023年7月にMetaが公開した英語ベースのLLMで、パラメータ数(70億、130億、700億)によって3つのモデルが用意されている。2023年2月にMetaが公開したLLaMAが研究用途での公開になっているのに対し、Llama 2は商用利用が可能であることや、公開されているモデルとしては高性能であることからオープンモデルのデファクトスタンダード位置を確保しつつある。
ELYZAは英語などの言語で学習されたLLMの能力を日本語に引き継ぐことで学習の必要量を減らせるといった考えに基づいて多言語LLMの日本語化などに取り組んでおり、今回のLlama 2の日本語能力強化の開発につながったと説明している。
Copyright © ITmedia, Inc. All Rights Reserved.