メディア
ITmedia AI+ >

中国テンセント、3890億パラメータのオープンソース大規模言語モデル「Hunyuan-Large」発表Innovative Tech(AI+)

» 2024年11月18日 12時00分 公開
[山下裕毅ITmedia]

Innovative Tech(AI+):

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X: @shiropen2

 中国Tencentに所属する研究者らが発表した論文「Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent」は、TransformerベースのMixture of Experts(MoE)モデルであるオープンソース大規模言語モデル(LLM)を提案した研究報告である。

Hunyuanのロゴ

 このモデル(Hunyuan-A52B)は総パラメータ数3890億、実際に活性化されるパラメータ数520億という規模を持ち、一度に25万6000トークンまでの処理が可能である。従来のモデルと比較して、より少ない計算リソースで優れた性能を実現している。

 特筆すべき技術的特徴として、7兆トークンという大規模なデータでの学習を実施し、そのうち1.5兆トークンは高品質な合成データを使用している。合成データの質を確保するため、指示生成や指示の進化、応答生成、応答のフィルタリングという4段階のプロセスを採用した。

 モデル構造では、全てのトークンで使う1つの共有専門家と、特定のタスクに特化した16の専門家を組み合わせた戦略を導入している。また、メモリ使用量を削減する圧縮技術や、専門家ごとに最適化された学習率の設定など、効率的な学習方法を実装している。

 事後学習段階では、教師あり微調整と人間フィードバックによる強化学習を実施。特に、数学やコーディング、論理的推論、知識ベースの質問応答、エージェントアクション、テキスト生成などの能力向上に焦点を当てている。

 評価実験では、英語と中国語の両方で、常識理解や質問応答、数学的推論、コーディング、長文脈処理など、さまざまなベンチマークで既存のオープンソースモデルを上回る性能を達成した。特に、数学データセットのMATHでは69.8%、コーディングデータセットのHumanEvalでは71.4%という高いスコアを記録している。この結果は、Llama 3.1-405B、Mistral-8x22B 、DeepSeek-V2などを上回る。

Hunyuan-Largeモデルと競合モデルの性能比較

Source and Image Credits: Sun, Xingwu, et al. “Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent.” arXiv preprint arXiv:2411.02265(2024).



Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ