米Google Researchや米MIT CSAILに所属する研究者らが開発した論文「Learning Vision from Models Rivals Learning Vision from Data」は、合成画像と合成キャプションから視覚表現を学習するアプローチを提案した研究報告である。「SynCLR」と呼ばれ、実データを使用せずに、最先端の視覚表現学習手法と同等の視覚表現を学習できる。

（最上段）CLIPのような手法は実際のデータのみから学習、（中段）StableRepのような手法は実際のテキストと生成画像から学習、（最下段）提案手法であるSynCLRは、合成テキストと合成画像から学習する

　表現学習は、生データ（多くの場合ラベルなし）から情報を抽出し整理するプロセスである。現在の最も優れた視覚表現学習手法は、大規模な実データセットに依存している。しかし、実データの収集には問題がある。

　大規模な未整理データの収集は比較的安価だが、自己教師あり学習では、データ量が多くなってもスケーリングの効果が少ない。小規模で整理されたデータの収集も可能だが、訓練されたモデルは狭いタスクに限られる。理想的なのは大規模で整理された実画像のデータセットだが、これは高コストである。

　この研究では、合成テキストと合成画像のみを使用して視覚表現を学習する新しい手法「SynCLR」を提案する。このアプローチでは、実際のデータセットに依存せずに、完全に合成されたデータを用いる。

　具体的には、まず大規模な画像キャプションデータセットを言語モデルを使って合成し、次にテキストから画像を生成するモデルを用いて、それぞれの合成キャプションに対応する複数の画像を生成する。これらの合成画像に対して対照学習を行い、同じキャプションを共有する画像を正のペアとして扱う。

SynCLRパイプラインで生成した合成キャプションと画像の例

　SynCLRは、実世界のデータを直接観察することなく、効果的な視覚的理解を発達させられる。実際のデータセットと競合する性能を持ち、画像分類タスクで他の一般的な視覚表現学習手法（CLIPやDINO v2など）と同等以上の結果を示している。特にセマンティックセグメンテーションなどのタスクにおいては、既存の自己教師あり方法を大きな差で上回っている。

Source and Image Credits: Yonglong Tian, Lijie Fan, Kaifeng Chen, Dina Katabi, Dilip Krishnan, Phillip Isola. Learning Vision from Models Rivals Learning Vision from Data.

この連載を「連載記事アラート」に登録する New