PFN、AIで動画を複数の色レイヤーにリアルタイム分解する技術開発：Innovative Tech

アルファチャンネル含むレイヤーに分解し、彩色や合成に使える。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　Preferred Networks（PFN）が開発した「Fast Soft Color Segmentation」は、1枚の画像を複数のRGBA （RGBカラーと不透明度を表現するアルファチャンネル）のレイヤーに分解する、深層学習を用いたカラーセグメンテーション技術だ。分解したレイヤーは画像や動画の再彩色や合成など、レイヤーベースの編集に利用できる。既存の手法に比べ、処理が30万倍高速になったという。

1枚のRGB画像から同質色を含む複数のRGBAレイヤーに分解する深層学習モデルを提案する

　画像のセグメンテーション（領域分け）は、画像の各ピクセルに単一の領域を割り当てる手法だが、ぼやけた物体や透明度の高い物体、区別が曖昧な領域には理想的ではない。そのため、各ピクセルを複数の領域に割り当てるセグメンテーションが効果的だ。

　しかし既存の手法では、高解像度の画像処理や動画フレームの分解に膨大な処理時間がかかってしまう。そこで本手法では品質を維持しつつ時間の短縮を狙う。

　提案モデルは、1枚のRGB画像を入力に「パレットカラーセレクション」「アルファレイヤー推定」「カラーレイヤー推定」の3段階で構成したアーキテクチャで処理し、RGBA層を出力する。

3つのステージから構成される本手法の深層学習モデル

　「パレットカラーセレクション」では、画像におけるカラーレイヤーに含まれる平均色を自動／手動で選択。「アルファレイヤー推定」では、選択されたパレットカラーに対応するアルファレイヤーを推定。「カラーレイヤー推定」では、パレットカラーからの色のずれを示す色残差を推定。これらを基に、RGBA層を決定する。アルファレイヤーと残差を推定するネットワークは共同で学習され、教師データを使用しない自己監視学習を採用している。

　学習したモデルの定性／定量的な実験を行った結果、同等の視覚的品質を維持しつつ、分解速度が最新の類似手法を大幅に上回ったとしている。特に既存の手法と比較して、分解時間を30万分の1に短縮することに成功。高速化により、リアルタイム編集やフレームごとの映像分解などへの適用が可能になるという。

最新の類似研究と定性的に比較した図。既存手法と比べても品質を維持している

【12月16日7時46分修正】PFNからの要望により、タイトルと本文から慶應大学の記載を削除しました。

PFN、AIで動画を複数の色レイヤーにリアルタイム分解する技術開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク