米AMDは3月5日(現地時間)、AIモデル「Instella」シリーズを公開した。同社のGPU「AMD Instinct MI300X」を使いトレーニングしたのが特徴。パラメータ数30億の「Instella-3B」は、他社が公開する同等サイズのAIモデルと比べて、おおむね性能を上回っているとしている。
今回公開したAIモデルは、4065兆トークンで1段階だけ事前トレーニングをした「Instella-3B-Stage1」、さらに575億7500万トークンで事前トレーニングを重ねたInstella-3Bなど。いずれのAIモデルも、Llama-3.2-3BやGemma-2-2Bと同等か、それを上回る性能を記録し、Qwen-2.5-3Bに迫る性能を記録したという。
他にも、Instella-3Bの指示学習済みAIモデルとして「Instella-3B-SFT」「Instella-3B-Instruct」も公開中だ。
AMDは「Instellaのリリースは、オープンソースAIの進歩と、大規模な言語モデルトレーニングにおけるAMDハードウェアの能力を実証する上で、大きな一歩を示している」と説明。AIモデルを公開した理由については「透明性、再現性、アクセシビリティーがAI研究開発の進歩の重要な原動力であると考えているため」などと述べている。
32Bなのに「DeepSeek R1」フルモデルと同性能? アリババがAIモデル「QwQ-32B」公開
ソフトバンクのAI開発企業、小規模言語モデルを公開 30億パラメータ以下の3種類 商用利用も可能
楽天、AIモデル「Rakuten AI 2.0」シリーズを無料公開 大規模言語モデル&小規模言語モデルの2形態で
iPhone 14で高速動作する軽量AIモデル、Sakana AIが開発 知識蒸留の新手法「TAID」採用
AI戦国時代、日本企業はどう動く?――国産LLM&AI半導体を開発中のPFN・岡野原代表のシナリオCopyright © ITmedia, Inc. All Rights Reserved.