Innovative Tech(AI+)

中国テンセント、3890億パラメータのオープンソース大規模言語モデル「Hunyuan-Large」発表

Innovative Tech(AI+):

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高いAI分野の科学論文を山下氏がピックアップし、解説する。

X: @shiropen2

 中国Tencentに所属する研究者らが発表した論文「Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent」は、TransformerベースのMixture of Experts(MoE)モデルであるオープンソース大規模言語モデル(LLM)を提案した研究報告である。

Hunyuanのロゴ

 このモデル(Hunyuan-A52B)は総パラメータ数3890億、実際に活性化されるパラメータ数520億という規模を持ち、一度に25万6000トークンまでの処理が可能である。従来のモデルと比較して、より少ない計算リソースで優れた性能を実現している。

 特筆すべき技術的特徴として、7兆トークンという大規模なデータでの学習を実施し、そのうち1.5兆トークンは高品質な合成データを使用している。合成データの質を確保するため、指示生成や指示の進化、応答生成、応答のフィルタリングという4段階のプロセスを採用した。

 モデル構造では、全てのトークンで使う1つの共有専門家と、特定のタスクに特化した16の専門家を組み合わせた戦略を導入している。また、メモリ使用量を削減する圧縮技術や、専門家ごとに最適化された学習率の設定など、効率的な学習方法を実装している。

 事後学習段階では、教師あり微調整と人間フィードバックによる強化学習を実施。特に、数学やコーディング、論理的推論、知識ベースの質問応答、エージェントアクション、テキスト生成などの能力向上に焦点を当てている。

 評価実験では、英語と中国語の両方で、常識理解や質問応答、数学的推論、コーディング、長文脈処理など、さまざまなベンチマークで既存のオープンソースモデルを上回る性能を達成した。特に、数学データセットのMATHでは69.8%、コーディングデータセットのHumanEvalでは71.4%という高いスコアを記録している。この結果は、Llama 3.1-405B、Mistral-8x22B 、DeepSeek-V2などを上回る。

Hunyuan-Largeモデルと競合モデルの性能比較

Source and Image Credits: Sun, Xingwu, et al. “Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent.” arXiv preprint arXiv:2411.02265(2024).

印刷する
SNSでシェア

Innovative Tech(AI+)

2019年の開始以来、多様な最新論文を取り上げている連載「Innovative Tech」。ここではその“AI編”として、人工知能に特化し、世界中の興味深い論文を独自視点で厳選、解説する。執筆は研究論文メディア「Seamless」(シームレス)を主宰し、日課として数多くの論文に目を通す山下氏が担当。イラストや漫画は、同メディア所属のアーティスト・おね氏が手掛けている。

この連載の記事をもっと見る

この記事の著者

山下裕毅

山下裕毅

2014年から幅広い分野の研究論文をピックアップして解説しているメディア「Seamless」(シームレス)を主宰している。

関連記事

こんなメディアも見られています

ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。

メールマガジンを配信中
メールマガジンを配信中

国内外の業界動向、AIやクラウドなどの最新技術、キャリア情報など今知りたい情報をまとめてお届けします。

いますぐご登録

よく見られているカテゴリー

アクセスランキング

  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9
  10. 10

SpecialPR

ITmedia AI+ SNS

X @itm_aiplusをフォロー

インフォメーション

ITmedia AI+をフォロー

あなたにおすすめの記事PR