モザイク外し? 汚い画像をキレイな画像に修復手法、中国チームが発表 Stable Diffusionを利用:Innovative Tech
中国科学院などに所属する研究者らは、Stable Diffusionを利用して劣化画像を高品質な画像に復元する修復フレームワークを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
中国科学院などに所属する研究者らが発表した論文「DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior」は、Stable Diffusionを利用して劣化画像を高品質な画像に復元する修復フレームワークを提案した研究報告である。
画像のノイズ除去やボケ除去、超解像といった従来の画像修復問題は、特定の劣化状態、既知の単純な劣化にのみ効果的であった。
これに対して、実際の環境下での多様な劣化を考慮した「Blind Image Restoration」(BIR)という手法が注目されている。BIRは、一般的な画像と、それが持つさまざまな劣化に対して、リアルな画像再構築を目指している。特に、BIRの研究は以下の3つのカテゴリーに分けられる。
(1)Blind Image Super-Resolution(BSR):低解像度で劣化が不明瞭な画像の超解像問題に取り組む技術、(2)Zero-Shot Image Restoration(ZIR):これは新しい研究の方向性で、劣化の前提条件を明確に定義した上で、クラシックな画像修復タスクで印象的なゼロショット復元を達成する方法、(3)Blind Face Restoration(BFR):人の顔の画像に特化した修復技術。
しかしながら、これらの既存のBIR技術は、実際の劣化を持つ画像の修復にはまだ限界がある。この問題を解決するために、新しいBIRの手法「DiffBIR」が提案された。DiffBIRは、事前知識として画像生成AI「Stable Diffusion」を使用して、画像の生成能力を向上させている。
このフレームワークは、復元ステージ「Restoration Module」と生成ステージ「Generation Module」の2つの段階から構成される。まず、復元ステージとしてSwinIRを適用して多くの劣化を減少させ、次に生成ステージとしてLAControlNetを通じて新しいテクスチャを生成する。この流れがないと、モデルは過度に平滑化された結果を生成するか、または誤った詳細を生成するリスクが発生する。
DiffBIRは、BSRとBFRの両方のタスクにおいて、既存の手法(例: BSRGAN、 Real-ESRGANなど)よりも優れたパフォーマンスを示した。特に、複雑なテクスチャやセマンティックな領域、細かいストライプの詳細など、既存の方法では扱いきれなかった部分において、DiffBIRは高い性能を発揮した。
Source and Image Credits: Lin, Xinqi, Jingwen He, Ziyan Chen, Zhaoyang Lyu, Ben Fei, Bo Dai, Wanli Ouyang, Yu Qiao, and Chao Dong. “DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior.” arXiv preprint arXiv:2308.15070(2023).
関連記事
- 100年前のフィルムが「8K+AI」で生々しく 関東大震災に迫る「NHKスペシャル」制作の裏側
9月2日午後10時から2夜連続で「NHKスペシャル 映像記録 関東大震災 帝都壊滅の三日間」が前後編で放送される。当時の記録映像を8Kスキャン+AI技術でカラー化したことで判明した、撮影場所/時刻などをもとに、巨大災害を追体験する内容となっている。今回、同局のチーフプロデューサーにテクノロジー面から番組制作の狙いを聞いた。 - アニメをリアルタイムで高解像度化するChrome拡張 「mimic」開発会社がAI活用 利用は無料
AIイラストメーカー「mimic」などを開発するラディウス・ファイブは、AIを活用してアニメをリアルタイムに高解像度化して視聴できるChrome拡張機能「AnimeSR」をリリースした。YouTubeやAbemaTV(生放送以外)、ニコニコ動画などに対応。利用料は無料。 - クフ王のピラミッドに未知の空間、名大らが特定 破壊せずに“透視”した「宇宙線イメージング」とは?
名古屋大学大学院は、世界最大規模のクフ王のピラミッド内にある未知の空間の位置と形状を特定したと発表した。この成果は「多地点宇宙線イメージング」と呼ばれる技術によるもの。カギとなったのは宇宙線として降り注ぐ「ミューオン」と呼ばれる物質だ。 - Wi-Fiからスマホの入力キーを盗む攻撃 他人のパスワード取得に成功 中国チームなどが発表
中国の湖南大学、シンガポールの南洋理工大学などに所属する研究者らは、Wi-Fiハードウェアをハッキングすることなく、Wi-Fi経由でスマートフォンのキーストロークからパスワードを特定する攻撃を提案した研究報告を発表した。 - パスワードを“ちょっと変える”はどれくらい危ない? 「abc123」→「123abc」など 中国チームが発表
中国の南開大学や北京大学などに所属する研究者らは、1つのサービスで使っているパスワードを少し変えて別のサービスで使い回しているパスワードを予測して特定する攻撃を提案した研究報告を発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.