米Metaは4月8日(米国時間)、同社のAI研究部門「Meta Superintelligence Labs」(MSL)が開発したマルチモーダル推論モデル「Muse Spark」を発表した。「Meta AI」のアプリ/Webブラウザ版から無料でアクセスできる。
Muse SparkはMuseシリーズの第一弾で、テキストと画像を統合的に処理するネイティブのマルチモーダル推論モデル。MSLが9か月かけてモデルアーキテクチャ・最適化・データキュレーションを含むAIスタック全体を再構築し、前世代の「Llama 4 Maverick」と同等の能力を10分の1以下の計算量で達成したという。
健康分野では1000人超の医師と協力してトレーニングデータを整備し、運動時に使う筋肉や栄養成分など、画像を含む健康上の質問に答えられるとしている。マルチモーダル認識は日常の場面でも使え、店舗の棚を撮影して商品を比較するといった使い方も示している。ビジュアルプログラミングにも対応し、プロンプトからカスタムWebサイトやミニゲームを作成できるという。
複数のサブエージェントが並行して推論する「Contemplating mode」(熟考モード)も今後段階的に展開する。難易度の高い推論ベンチマーク「Humanity's Last Exam」では58%、「FrontierScience Research」では38%を記録。Metaはこれらの結果について、Gemini 3.1のDeep ThinkやGPT 5.4 Proといったフロンティアモデルの高難度の推論モードと競合できる水準としている。
一方、長期にわたるエージェントタスクとコーディングワークフローでは現時点で性能差があることを認めており、米OpenAIや米Anthropic、米Googleなどのフロンティアモデルと比べて性能的に勝っているとはいえない。この辺りについては引き続き投資するとしており、より大規模なモデルについても現在開発中という。
MSLは、米Scale AIのCEOだったアレクサンダー・ワン氏をCAIO(最高AI責任者)として迎え、2025年に設立した組織。それまでMetaのAIは、Llamaシリーズとしてオープンウェイトの最先端を走っていたが、Llama 4においてベンチマークの操作問題などが浮上。モデルの評判もあまり高くなく、ザッカーバーグ氏はチームを再編。当時チーフAIサイエンティストだったヤン・ルカン氏はその後、同社を去っている。今回のMuseは、Metaの「AI再出発」を示すモデルとなる。
今後数週間以内にWhatsApp、Instagram、Facebook、Messengerのほか、「Ray-Ban Meta」などのAIグラスにも順次拡大するほか、一部パートナーにはAPIを通じたプライベートプレビューも提供する。なお、Llamaがオープンモデルだった一方で、Muse Sparkはクローズド運用となっている。Metaは、将来的にオープンソース化も視野に入れているとしている。
Meta、視覚で世界を理解する新AI「Muse Spark」発表 「Llama」より高効率でAIメガネにも統合へ
MetaのザッカーバーグCEO「超知能に数千億ドル投資する」 「Superintelligence Labs」に初言及
Meta、新AI部門トップに元OpenAIのジャオ氏を任命
「Meta AI」が「ChatGPT」や「Gemini」同様の単体アプリに
Meta、ネイティブマルチモーダルAI「Llama 4」発表 最小モデルは「H100」1枚で利用可能Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR