このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Microsoft Research Asia、北京大学、Microsoft Azure AIによる研究チームが開発した「NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis」は、 テキストから画像や動画、画像から動画、画像から拡張画像(コンテンツの関係を失うことなく画像を拡大すること)などを生成する学習モデルだ。
OpenAIのDALL・E2、GoogleのImagenやPartiなど、テキストから高品質の画像を生成できるモデルが注目されている。これらが解像度1024×1024ピクセルの画像を生成するのに対し、この手法はより高解像度な画像(4096×1024ピクセル)を生成できる。無条件画像生成であれば、3万8912×2048ピクセルの超横長画像まで出力できる。解像度を上げることで生じる性能低下がほとんど見られないのが特徴だ。
最近の視覚合成モデルは、与えられたテキストや画像などに基づいて画像やビデオの生成、画像のインペイントやアウトペイント、ビデオ予測など、さまざまな視覚コンテンツ作成を支援できる。またこの分野では、より高解像度の画像を生成する方法や、より長時間の動画を生成する方法を探求する研究が増えてきており、注目すべき傾向を目の当たりにしている。
しかし、既存の研究では画像や動画をパッチに分割し、その依存関係を考慮せずに個別にパッチを生成するモデルを学習し、生成されたパッチを合成して最終的な画像や動画を形成している。このような手法は、生成されたパッチ間の依存関係を明示的にモデル化していないため、特に高解像度画像や長めの動画を生成する場合、生成されたコンテンツの整合性を保証するのに苦労する。
この課題に一石を投じたのがこの研究だ。「NUWA-Infinity」と呼ぶ今回のモデルはテキストや画像を入力することで、任意サイズの高品質な画像や画像拡張、動画を生成する。グローバルなパッチレベルの自己回帰モデルがパッチ間の依存性を考慮し、可変サイズ生成タスクに対処する。
またNCP(Nearby Context Pool)を導入し、既に生成された関連パッチを現在生成中のパッチのコンテキストとしてキャッシュする方法で、パッチレベルのモデリングを犠牲にせず、計算コストを大幅に削減することができる。
さらに画像のアウトペインティングに有効な、適切な生成順序を考慮した位置埋め込みを学習する「Arbitrary Direction Controller」(ADC)を提案している。
以下の画像は画像のアウトペインティングの一例であり、入力画像をコンテンツの関係を壊すことなく4方向に拡張している。
評価実験から画像と動画の合成を同時にサポートするNUWAと比較して、NUWA-Infinityの生成品質は大幅に向上していることが確認された。また画像アウトペイントや自然言語記述からのアニメーション作成など、創造的な映像合成タスクにおける応用可能性を示した。
Source and Image Credits: Chenfei Wu, Jian Liang, Xiaowei Hu, Zhe Gan, Jianfeng Wang, Lijuan Wang, Zicheng Liu, Yuejian Fang, and Nan Duan.“NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis”
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR