ニュース
米AMD、AIモデル「Instella」シリーズ公開 パラメータ数30億の小規模サイズ 同社製GPUを利用
米AMDは、AIモデル「Instella」シリーズを公開した。
米AMDは3月5日(現地時間)、AIモデル「Instella」シリーズを公開した。同社のGPU「AMD Instinct MI300X」を使いトレーニングしたのが特徴。パラメータ数30億の「Instella-3B」は、他社が公開する同等サイズのAIモデルと比べて、おおむね性能を上回っているとしている。
今回公開したAIモデルは、4065兆トークンで1段階だけ事前トレーニングをした「Instella-3B-Stage1」、さらに575億7500万トークンで事前トレーニングを重ねたInstella-3Bなど。いずれのAIモデルも、Llama-3.2-3BやGemma-2-2Bと同等か、それを上回る性能を記録し、Qwen-2.5-3Bに迫る性能を記録したという。
他にも、Instella-3Bの指示学習済みAIモデルとして「Instella-3B-SFT」「Instella-3B-Instruct」も公開中だ。
AMDは「Instellaのリリースは、オープンソースAIの進歩と、大規模な言語モデルトレーニングにおけるAMDハードウェアの能力を実証する上で、大きな一歩を示している」と説明。AIモデルを公開した理由については「透明性、再現性、アクセシビリティーがAI研究開発の進歩の重要な原動力であると考えているため」などと述べている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
32Bなのに「DeepSeek R1」フルモデルと同性能? アリババがAIモデル「QwQ-32B」公開
中国Alibabaは、大規模言語モデル(LLM)「QwQ-32B」を発表した。パラメータ数が320億でありながら、中国DeepSeekのLLM「DeepSeek R1」(パラメータ数6710億)と同等の性能を達成したという。
ソフトバンクのAI開発企業、小規模言語モデルを公開 30億パラメータ以下の3種類 商用利用も可能
ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitionsは、小規模言語モデル(SLM)「Sarashina2.2」シリーズを公開した。
楽天、AIモデル「Rakuten AI 2.0」シリーズを無料公開 大規模言語モデル&小規模言語モデルの2形態で
楽天グループは、大規模言語モデル(LLM)「Rakuten AI 2.0」と小規模言語モデル(SLM)「Rakuten AI 2.0 mini」の提供を始めた。
iPhone 14で高速動作する軽量AIモデル、Sakana AIが開発 知識蒸留の新手法「TAID」採用
AIベンチャーのSakana AIは、小規模言語モデル(SLM)「TinySwallow-1.5B」を開発したと発表した。大規模言語モデル(LLM)の知識を効率的にSLMに転移できる新技術「TAID」を開発し、これを利用し作成した。
AI戦国時代、日本企業はどう動く?――国産LLM&AI半導体を開発中のPFN・岡野原代表のシナリオ
オンラインイベント「ITmedia AI+ Boost」で、Preferred Networks(PFN)の代表取締役 最高研究責任者である岡野原大輔さんが基調講演を行った。ChatGPTやClaudeなどが世界をリードする中でも、国産AIの存在感を高める方策を示した。

