このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
中国の南開大学とTencent AI Lab、韓国のXverseの研究チームが開発した「Aesthetic-guided Outward Image Cropping」は、写真内を切り抜くのではなく、広げる方法で被写体に合わせた構図にして出力する、深層学習を使った外向きクロッピング手法だ。
写真には、3分の1の法則やレイルマン比率などの良い構図を作るための長年の黄金律があり、そのために、撮影後の写真をクロッピングする場合がある。適切に行えば、不要なオブジェクトを取り除き、構図のルールに従って主要な被写体を再配置できる。手動が基本だが、近年では深層学習を使って高品質に自動処理するフレームワークも出てきている。
しかし、このような元の画像フレーム内で良好な構図を見つけてクロッピングを行う内向きプロセスでは、良好な構図を見つけられないケースも出てくる。そこで今回は、反対に、外向きのプロセスでクロッピングを行い、写真を広げて良好な構図に仕上げる手法を提案する。
従来のクロッピングでは、画像の4方向全てを縮小していたのに対し、外向きクロッピングでは、ある方向に沿って縮小し、他の方向に沿って拡大し、より良い構図を得るといった柔軟なクロッピングを実現する。
この外向きトリミングの手法では、まず、入力画像の構図の美しさに基づいて、良い構図を見つけるために画像のFOVを拡大するかを探索する、次に、画像のFOVを拡大する必要がある場合は、画像の外挿部分を視覚的に現実的で、意味的に元の画像と一致するように合成する。
フレームワークは、2つの主要なステージで構成する。第1段階では、FOV評価モジュールを使い、入力画像のFOVを拡大する必要があるかどうかを評価し、画像をどの程度外挿する必要があるかを決定。外挿した未知の領域を画像外挿モジュール(StyleGAN2)で埋める。
第2段階では、構図の美しさと外挿領域の品質の両方を考慮し、構図と外挿領域の品質の間で良好なトレードオフを実現する最適な作品に仕上げるために、GAN(Generative adversarial network)を使用する。訓練には、GAICD データセット(トレーニング用に画像1,036枚、テスト用に画像200枚)を使った。
この手法を活用すると、現在のFOVを拡大するかどうか、拡大する場合にはどの程度拡大するかをアルゴリズムが自ら判断し、それに基づき、構図の美しさと画像の外挿領域の質との間でトレードオフを実現し、最終的に視覚的に良好な画像を出力する。比較実験の結果、この手法は、元のFOVが美的な構成を欠いている場合に、既存の画像クロッピング法よりも視覚的に美しい構成を生成できると分かった。
Source and Image Credits: Lei Zhong, Feng-Heng Li, Hao-Zhi Huang, Yong Zhang, Shao-Ping Lu, and Jue Wang. 2021. Aesthetic-guided outward image cropping. ACM Trans. Graph. 40, 6, Article 211 (December 2021), 13 pages. DOI:https://doi.org/10.1145/3478513.3480566
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR