ITmedia NEWS > 科学・テクノロジー >

白黒写真を思った通りにカラー化できるツール「UniColor」 テキストやストロークで詳細に編集Innovative Tech

» 2022年11月14日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 香港城市大学と英University of Bathの研究チームが発表した論文「UniColor : A Unified Framework for Multi-Modal Colorization with Transformer」は、白黒写真をさまざまな編集方法で色付けできるフレームワークを提案した研究報告だ。

 ストロークで塗る箇所と色を指定、別の画像を参照、テキストで指示の3つの編集方法を組み合わせて、白黒画像に対して詳細なカラー指定を行い、高品質で色鮮やかな色付けを実行する。

入力したグレースケール画像に対して、部分的に指定した色に着色を行う

 グレースケール画像に色を付けるタスクであるカラー化は、近年活発に研究されている。また部分的に色付けを編集したい場合の手法も多数提案されている。

 今回は、ストローク、別の画像を参照、テキストの3つの編集方法を同時に行えるフレームワーク「UniColor」を提案する。このフレームワークは、グレースケール画像を0から着色することも、条件に基づいて着色することも、単一モダリティまたはマルチモダリティのいずれでも可能である。

 3つの編集方法であるストロークとは、入力画像の任意の箇所を色付きペンでなぞると、その箇所のみが指定した色に変換されるという機能。別の画像を参照は、別の色付き画像をベースに、似た色合いで着色される機能。テキストは、「髪は赤色」のように文章で色付けを指定できる機能である。

ストローク、別の画像を参照、テキストを用いた編集を同時に行える

 システムは、異なるモダリティを統一的に表現するために、「hint point」という点を中間表現とした2段階の枠組みを採用する。hint pointとは、条件付きの色を持つ点であり、最小サイズは1画素である。これは、hint pointが異なるモダリティから自然に分解・抽出されるためである。

 ストロークに基づく条件では、hint pointはストロークとともにサンプリングできる。参照に基づく条件では、意味的なマッチングに基づいて色をグレースケール画像に転移させ、マッチングの信頼度が高いhint pointを選択することが可能である。テキスト条件では、CLIP embeddingに基づく手法を導入し、入力テキストに対応するオブジェクトにhint pointを割り当てる。

 こうして、第1段階で全てのモダリティを統一的な表現(すなわち、hint point)に変換する。その後、モデルは第2段階での色付けの学習に移行する。第2段階の生成タスクでは、グレースケール画像をhint pointと共に与え、多様な色付けのためのTransformerベースのネットワークを設計する。

フレームワークの概要

 これら3つの編集方法は、同時に活用することができる。下の図では、白黒画像に対して、ストロークと別の画像を参照、ストロークとテキスト、別の画像を参照とテキスト、3つ全部など、各編集方法を組み合わせた編集で出力したサンプルを示す。

3つの編集方法を組み合わせたサンプル

 研究者らは、このフレームワークを誰でも使えるUIツールに組み込んだ。下の図がそのユーザーインタフェースで、左上に入力画像でその隣に出力結果を示している。下部には、色を選択する箇所、参照画像をアップロードする箇所、テキストを入力する箇所などが設けられている。ユーザーが入力画像に直接ペンやマウスでストロークすると、その箇所だけが指定した色に変わる。指定した枠内だけ、参照画像の色付けにするなどが行える。

色付けツールのユーザーインタフェース

Source and Image Credits: Huang, Zhitong, Nanxuan Zhao, and Jing Liao. “UniColor: A Unified Framework for Multi-Modal Colorization with Transformer.” arXiv preprint arXiv:2209.11223 (2022).



Copyright © ITmedia, Inc. All Rights Reserved.