Meta、画像内アイテム識別のAIモデル「SAM」と大規模データセットを無償公開

» 2023年04月06日 08時19分公開

[ITmedia]

　米MetaのAI部門であるMeta AIは4月5日（現地時間）、画像内から個々のオブジェクトを選択できるAIモデル「SAM（Segment Anything Model）」（なんでもセグメントするモデル）をオープンライセンス（Apache 2.0）で公開したと発表した。

写真内のオブジェクトをセグメント化

　このモデルと共に、SAMのトレーニングに使われる大規模画像データセット「SA-1B」も公開した。このデータセットは、大手写真企業からの約1100万枚のライセンス画像と、そのセグメンテーションモデルで生成された11億枚以上のプライバシー保護された画像に基づくセグメンテーションマスクが含まれる。このマスク数は既存のセグメンテーションデータセットの400倍に相当するという。

　セグメンテーションは、AIモデルが特定の画像内のオブジェクトを認識できるようにするコンピュータビジョンのタスク。正確なセグメンテーションには、強力なAIトレーニングインフラと膨大な量の注釈付きデータが必要だ。

　SAMは、オブジェクトが何かという一般的な概念は既に学習済みで、学習していないオブジェクトに対してもマスクを生成できるという。Metaは、SAMには十分な汎用性があり、追加のトレーニングをしなくても、あらゆる種類の画像ですぐに使えるとしている。

SAMの概念図

　「将来的には、あらゆる画像からあらゆるオブジェクトを見つけ出し、セグメント化する必要がある多くの領域のアプリを支援するために使用される可能性がある。SAMは、より一般的なマルチモーダルな世界理解のための大規模なAIシステムの構成要素になる可能性がある」

　Metaは使用例として、以下のケースを挙げた。同社が注力するメタバースでも活用できそうだ。

Webページの画像や動画とテキストの両方のコンテンツを理解するツール
AR/VRの分野で、ユーザーの視線に基づいてオブジェクトを選択し、それを3Dに「リフティング」する機能
コラージュやビデオ編集のための画像領域の抽出
地球や宇宙で起こる自然現象の科学的な研究支援（動物や物体の位置を特定し、ビデオで追跡する）

　MetaはこれらをGitHubで公開し、無料のインタラクティブなデモも公開した。

　このデモは商業目的での使用は禁止している。デモにアップロードしたユーザーの画像と派生データはデモのためだけに使われ、セッション後に削除するとしている。

SAMのデモ。ネコを1匹ずつ選択できる

　Meta AIは、2月に設立された「生成AIにフォーカスするトップレベルのチーム」（マーク・ザッカーバーグCEOの説明）。ザッカーバーグ氏は、短期的にはInstagramやFacebookに生成AI採用の「楽しい体験を組み込んでい」き、長期的には「様々なな方法で人間を支援するAIペルソナの開発に注力する」と語った。

Meta、ジェネレーティブAIのチーム結成を発表　AIペルソナ開発目指し
MetaのザッカーバーグCEOは「ジェネレーティブAIチーム」結成を発表した。長期目標として、人間を支援するAIペルソナの構築を掲げた。
Meta、独自大規模言語モデル（LLM）の「LLaMA」を限定リリース
Metaは独自の大規模言語モデル「LLaMA」（Large Language Model Meta AI）を研究者向けにリリースした。「ChatGPT」のLLM「GPT-3.5」よりも小規模でも高性能としている。
Metaは減収、リストラコスト42億ドルなどで大幅減益　「2023年は効率化の年」とCEO
InstagramやFacebookを運営するMetaの2022年10～12月期の決算は、前四半期に続けての減収大幅減益。メタバース部門の赤字増加に加え、1万人以上をレイオフしたリストラコストが響いた。「ジェネレーティブAIのリーダーになる」とザッカーバーグCEO。
Meta、動画生成AI「Make-A-Video」を発表　「肖像画を描くテディベア」などの作品公開
Metaが動画生成AI「Make-A-Video」を発表した。「Stable Diffusion」や「Midjourney」、「DALL・E 2」などの画像生成AIの動画版。「浜辺を走るユニコーン」などの生成作品を公開した。