このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
中国科学院などに所属する研究者らが発表した論文「DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior」は、Stable Diffusionを利用して劣化画像を高品質な画像に復元する修復フレームワークを提案した研究報告である。
画像のノイズ除去やボケ除去、超解像といった従来の画像修復問題は、特定の劣化状態、既知の単純な劣化にのみ効果的であった。
これに対して、実際の環境下での多様な劣化を考慮した「Blind Image Restoration」(BIR)という手法が注目されている。BIRは、一般的な画像と、それが持つさまざまな劣化に対して、リアルな画像再構築を目指している。特に、BIRの研究は以下の3つのカテゴリーに分けられる。
(1)Blind Image Super-Resolution(BSR):低解像度で劣化が不明瞭な画像の超解像問題に取り組む技術、(2)Zero-Shot Image Restoration(ZIR):これは新しい研究の方向性で、劣化の前提条件を明確に定義した上で、クラシックな画像修復タスクで印象的なゼロショット復元を達成する方法、(3)Blind Face Restoration(BFR):人の顔の画像に特化した修復技術。
しかしながら、これらの既存のBIR技術は、実際の劣化を持つ画像の修復にはまだ限界がある。この問題を解決するために、新しいBIRの手法「DiffBIR」が提案された。DiffBIRは、事前知識として画像生成AI「Stable Diffusion」を使用して、画像の生成能力を向上させている。
このフレームワークは、復元ステージ「Restoration Module」と生成ステージ「Generation Module」の2つの段階から構成される。まず、復元ステージとしてSwinIRを適用して多くの劣化を減少させ、次に生成ステージとしてLAControlNetを通じて新しいテクスチャを生成する。この流れがないと、モデルは過度に平滑化された結果を生成するか、または誤った詳細を生成するリスクが発生する。
DiffBIRは、BSRとBFRの両方のタスクにおいて、既存の手法(例: BSRGAN、 Real-ESRGANなど)よりも優れたパフォーマンスを示した。特に、複雑なテクスチャやセマンティックな領域、細かいストライプの詳細など、既存の方法では扱いきれなかった部分において、DiffBIRは高い性能を発揮した。
Source and Image Credits: Lin, Xinqi, Jingwen He, Ziyan Chen, Zhaoyang Lyu, Ben Fei, Bo Dai, Wanli Ouyang, Yu Qiao, and Chao Dong. “DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior.” arXiv preprint arXiv:2308.15070(2023).
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR