中国テンセント、3890億パラメータのオープンソース大規模言語モデル「Hunyuan-Large」発表

公開 2024年11月18日 12時00分

著者

山下裕毅

[ITmedia]

印刷する連載新着通知を受け取る

Innovative Tech（AI+）：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X：＠shiropen2

　中国Tencentに所属する研究者らが発表した論文「Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent」は、TransformerベースのMixture of Experts（MoE）モデルであるオープンソース大規模言語モデル（LLM）を提案した研究報告である。

Hunyuanのロゴ

　このモデル（Hunyuan-A52B）は総パラメータ数3890億、実際に活性化されるパラメータ数520億という規模を持ち、一度に25万6000トークンまでの処理が可能である。従来のモデルと比較して、より少ない計算リソースで優れた性能を実現している。

　特筆すべき技術的特徴として、7兆トークンという大規模なデータでの学習を実施し、そのうち1.5兆トークンは高品質な合成データを使用している。合成データの質を確保するため、指示生成や指示の進化、応答生成、応答のフィルタリングという4段階のプロセスを採用した。

　モデル構造では、全てのトークンで使う1つの共有専門家と、特定のタスクに特化した16の専門家を組み合わせた戦略を導入している。また、メモリ使用量を削減する圧縮技術や、専門家ごとに最適化された学習率の設定など、効率的な学習方法を実装している。

　事後学習段階では、教師あり微調整と人間フィードバックによる強化学習を実施。特に、数学やコーディング、論理的推論、知識ベースの質問応答、エージェントアクション、テキスト生成などの能力向上に焦点を当てている。

　評価実験では、英語と中国語の両方で、常識理解や質問応答、数学的推論、コーディング、長文脈処理など、さまざまなベンチマークで既存のオープンソースモデルを上回る性能を達成した。特に、数学データセットのMATHでは69.8％、コーディングデータセットのHumanEvalでは71.4％という高いスコアを記録している。この結果は、Llama 3.1-405B、Mistral-8x22B 、DeepSeek-V2などを上回る。

Hunyuan-Largeモデルと競合モデルの性能比較

Source and Image Credits: Sun, Xingwu, et al. “Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent.” arXiv preprint arXiv:2411.02265（2024）.

この連載新着通知をメールで受け取る

印刷する

SpecialPR

Innovative Tech（AI+）

2019年の開始以来、多様な最新論文を取り上げている連載「Innovative Tech」。ここではその“AI編”として、人工知能に特化し、世界中の興味深い論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」（シームレス）を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。

連載新着通知を受け取る

この連載の記事をもっと見る