Meta、マルチモーダルAI「ImageBind」をオープンソース化

Metaは、マルチモーダルなAIモデル「ImageBind」をオープンソースで公開した。テキスト、画像および動画、音声、深度（3D）、熱（赤外線）、慣性測定単位（IMU）という6種類のモダリティをサポートする。「メタバース」生成にも使えそうだ。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米Metaは5月9日（現地時間）、マルチモーダルな情報をバインドするAIモデル「ImageBind」をオープンソース化したと発表した。

　「マルチモーダル」は複数の「モダリティ」の処理が可能であることを示す。モダリティは、データの種類。ImageBindは、テキスト、画像および動画、音声、深度（3D）、熱（赤外線）、慣性測定単位（IMU）という6種類のモダリティの情報を単一の表現空間で学習する。

　例えば、トラの写真を解析し、その吠え方、体温、動きなどの総合的な情報を生成したり、にぎやかな市場の音に基づいて市場の画像を生成したりできるという。

　ImageBindは、モダリティの組み合わせごとのデータのトレーニングが不要で、複数のモダリティにわたって結合埋め込み空間を作成できる。

　例えば、研究用に交通量の多い都市の道路からの音声データと熱データを1つのデータセットにすることも可能だ。

　3DセンサーとIMUセンサーを組み合わせれば、没入型の仮想世界を開発することも可能だとMetaは説明する。「メタバース」の展開に役立ちそうだ。

　マーク・ザッカーバーグCEOは直近の業績発表で、「われわれは何年もの間、AIとメタバースの両方に注力してきたし、今後も両方に注力していく。この2つの領域は関連している」と語った。

詳細は論文に