Meta、動画内アイテム識別AI「SAM 3」と3Dモデル「SAM 3D」を公開
米Metaは11月19日(現地時間)、動画内のアイテムも識別できるAIモデル「Segment Anything Model 3」(SAM 3)を発表した。コードとモデルの重みを独自の「SAM License」の下、GitHubで公開した。このリリースには、SAM 3とともに、単一画像からの3D物体、人体再構築のためのオープンソースモデル群「SAM 3D」も含まれている。
SAM 3は、画像と動画のプロンプト可能なセグメンテーションのための統一基盤モデル。テキスト、例示、ボックスやマスクなどの視覚的プロンプトを使ってオブジェクトを検出し、セグメント化し、追跡できるというものだ。
前身である「SAM 2」と比較して、短いテキストフレーズや例示で指定されたオープンボキャブラリーの概念のすべてのインスタンスを網羅的にセグメント化する能力を導入した点で進歩している。従来のモデルが「人」のような広範囲な概念をセグメント化するのに対し、SAM 3は「赤いストライプの傘」のような、より微妙な概念に対応できる。
このモデルは、既存のベンチマークよりも50倍以上多い27万のユニークな概念を含むという新ベンチマーク「SA-Co」で、人間のパフォーマンスの75~80%を達成し、既存システムに比べて2倍の性能向上を示したという。この進歩は、400万以上のユニークな概念を自動的にアノテーションしたデータエンジンによって支えられているという。
これらのモデルの応用として、SAM 3とSAM 3Dは、Facebook Marketplaceの新しい「View in Room」機能を強化しており、ユーザーが購入前に自宅の空間でランプやテーブルなどの家具類のスタイルやフィット感を視覚化できるようにしている。
また、SAM 3は、Instagramの動画作成アプリ「Edits」に間もなく導入される新しいエフェクトを可能にし、クリエイターが動画内の特定の人やオブジェクトにダイナミックなエフェクトを適用できるようにする。
SAM 3は、マルチモーダルLLMのための知覚ツール「SAM 3 Agent」としても利用でき、「手を挙げていない座っている人」などのより複雑なテキストクエリをセグメント化することができる。科学分野では、野生生物モニタリング用の公開ビデオデータセット「SA-FARI」の構築に使用されている。これらのモデルの機能は、誰でも「Segment Anything Playground」で体験できる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
こんなメディアも見られています
ITmedia AI+に関連する情報をお探しであれば、こちらのメディアもお役に立てるかもしれません。
SpecialPR
よく見られているカテゴリー
アクセスランキング
-
1
「Nano Banana 2」「Nano Banana Pro」が一般提供開始 「2」は動画からの画像生成もサポート
-
2
それで、メモリ不足はいつまで続くの? なかなか終わらない狂騒のウラ側
-
3
「国産人型ロボ」量産化へ 東大発スタートアップ 三菱自動車も出資
-
4
「Mythos級モデル」一般提供、数週間以内に 米Anthropic「Opus 4.8」リリース
-
5
OpenAIが生命科学推論AI「GPT-Rosalind」をバイオディフェンスに開放 デュアルユースリスクに懸念も
-
6
「Google Antigravity 2.0と戯れながら感じたこと」と「LLM Wikiを実践して『ロケスマペディア』を作ってみた」
-
7
ローカルLLMは本当に手元で動くのか? ハードウェアとモデルの現実的な選び方【2026年春】
-
8
データ分析の「分からない」「準備が面倒」を解消 ソニーの「初心者」特化ツール、記者が使ってみた【レポート】
-
9
伝説の投資家が語る「AIの真髄」 大規模言語モデルは「ただの部品」に成り下がる
-
10
NEC、日立、富士通が“Anthropic協業”でそろい踏み 狙いは? 【3社の幹部コメントまとめ】
SpecialPR
ITmedia AI+ SNS
インフォメーション
注目情報をチェック
ITmedia AI+をフォロー
あなたにおすすめの記事PR