ELYZA-japanese-Llama-2-70bは、米Meta製であるLlama 2の700億パラメータモデルをベースとして、ELYZA独自で日本語に特化した追加事前追加学習と事後学習を施し、日本語処理の性能を高めた。
追加事前学習には、100億トークンの日本語コーパスを活用。学習に当たっては、産業技術総合研究所の生成AI支援プログラムの援助を受けて、AI用スーパーコンピュータ「ABCI」の計算資源の20%を2カ月占有して学習を行った。
事後学習は、ELYZA独自に構築したデータセットをベースに、日本語での指示をくみ取れるような調整を行っている。ELYZAの垣内弘太CTOは自社にデータファクトリーというデータ制作専門の部署を置き、データの学習と改善を繰り返したと説明。「トレーニングを1年以上続けてデータをブラッシュアップし続け、現在のELYZAの性能につなげた」と説明した。
ELYZA-japanese-Llama-2-70bの性能評価には、日本語LLM用の2つのベンチマークで実施。この評価ではGPT-3.5やClaude 2、Gemini 1.0に匹敵する日本語処理性能を確認したという。
2つのベンチマークのうち「ELYZA Tasks 100」は、ELYZA自身が定めたもので、LLMが指示に従う能力や役に立つ回答を示せるかを人手で評価している。このベンチマークの評価では、全8モデル中5位にランクインし、国内モデルでは1位を記録。GPT-3.5 Turbo(0125)に匹敵する性能を示した。
もう一方のベンチマークである、英Stability AIの「Japanese MT-bench」では、総合スコアで「Gemini 1.0 Pro」を上回るスコアを獲得。特に人文学や科学技術の分野では高い性能を発揮し、OpenAIのGPT-4(0613)と同等水準の性能を確認できたとしている。
一方で、数学とコーディングの分野が苦手であり、スコアが平均を下回る結果に。推論タスクについても、GPT 3.5 Turbo-0125に引けを取る評価だった。
ELYZAはこれまで、LLMを法人パートナー向けにカスタムメイドで提供していた。主な活用例として、J東京海上日動火災保険のコールセンター業務の省力化や、マイナビの求人原稿の執筆になどがある。
ELYZA-japanese-Llama-2-70bの開発をへて、新たにAPI形式のサービスを追加する。「ELYZA LLM for JP」シリーズとして、2024年春から提供する予定。今回発表した700億パラメータのモデルの他にも、130億パラメータ版などの既存モデルも提供し、法人のニーズにあわせて選択できるようにするという。
また、医療や法務、金融のような専門知識を求められる業界を想定し、領域特化型のLLMも開発予定と明かす。こちらは、個別企業との協業を通じて開発するとしている。
ChatGPTのような形式の一般ユーザー向けサービスは、現時点で提供予定はない。
Copyright © ITmedia, Inc. All Rights Reserved.