このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Preferred Networks(PFN)が開発した「Fast Soft Color Segmentation」は、1枚の画像を複数のRGBA (RGBカラーと不透明度を表現するアルファチャンネル)のレイヤーに分解する、深層学習を用いたカラーセグメンテーション技術だ。分解したレイヤーは画像や動画の再彩色や合成など、レイヤーベースの編集に利用できる。既存の手法に比べ、処理が30万倍高速になったという。
画像のセグメンテーション(領域分け)は、画像の各ピクセルに単一の領域を割り当てる手法だが、ぼやけた物体や透明度の高い物体、区別が曖昧な領域には理想的ではない。そのため、各ピクセルを複数の領域に割り当てるセグメンテーションが効果的だ。
しかし既存の手法では、高解像度の画像処理や動画フレームの分解に膨大な処理時間がかかってしまう。そこで本手法では品質を維持しつつ時間の短縮を狙う。
提案モデルは、1枚のRGB画像を入力に「パレットカラーセレクション」「アルファレイヤー推定」「カラーレイヤー推定」の3段階で構成したアーキテクチャで処理し、RGBA層を出力する。
「パレットカラーセレクション」では、画像におけるカラーレイヤーに含まれる平均色を自動/手動で選択。「アルファレイヤー推定」では、選択されたパレットカラーに対応するアルファレイヤーを推定。「カラーレイヤー推定」では、パレットカラーからの色のずれを示す色残差を推定。これらを基に、RGBA層を決定する。アルファレイヤーと残差を推定するネットワークは共同で学習され、教師データを使用しない自己監視学習を採用している。
学習したモデルの定性/定量的な実験を行った結果、同等の視覚的品質を維持しつつ、分解速度が最新の類似手法を大幅に上回ったとしている。特に既存の手法と比較して、分解時間を30万分の1に短縮することに成功。高速化により、リアルタイム編集やフレームごとの映像分解などへの適用が可能になるという。
【12月16日7時46分修正】PFNからの要望により、タイトルと本文から慶應大学の記載を削除しました。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR