ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

「誰がモデルか、なんとなく分かる」アニメ風の顔画像に変換するAI、台湾の研究チームが開発Innovative Tech

» 2022年02月03日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 国立台湾科技大学の研究チームが開発した「Cartoon Style Transfer in Faces using GANs」は、現実の顔のアイデンティティーを維持したままアニメ風の顔画像に変換するGAN(Generative Adversarial Network)を使った手法だ。実写感を排除しているのに、元の顔の原型をできるだけ残した点が特徴だ。

この手法の出力画像。左端の列が参考にするスタイル画像、上段行が元となる実写画像
元の実写画像とモデルのアニメ画像、および合成結果

 先行研究でも実写の顔画像からアニメ風の顔画像にスタイル変換するGANを使ったモデルが多数報告されている。TikTokやSnapchatなどの多くのモバイルアプリでも顔をアニメ化できるカートゥーン・フィルター機能を提供している。

 これらの問題点は、転写後の顔がアイデンティティーを認識できにくいところにある。顔の原型が崩れアニメよりの顔に変換され、誰だか分からない状態だ。この課題に向き合い、このモデルでは、転写後も誰だか分かる状態でアニメ風の顔に変換することを目的としたアーキテクチャを提案する。

 提案モデルは、Swaping Autoencoder for Deep Image Manipulation(SwapAE)の事前学習モデルを使い、画像を構造コードとテクスチャコードに分けて符号化し、その2つのコードによって結果画像を構成する。

 他の多くのGANモデルが生成器全体を学習するのに対し、このモデルは生成器の全層ではなく第6層から第8層のみを学習するようにアーキテクチャを変更している。SwapAEのオリジナル損失関数をわずかに調整し、スタイライゼーション損失を追加、テクスチャコードを生成器の最上層に与えている。

フレームワークの概要

 出力される画像は、輪郭や髪形、鼻筋、目や口などの各種パーツの大きさや形状など、そのほとんどが元の実写画像に沿っており、髪や肌、目の色、質感などはアニメ画像のスタイルに変換する。これにより、アニメ風に変換されているのに、原型の雰囲気が認識できる状態の画像に仕上がる。

上段行がスタイル画像、中段行が実写画像、下段行がこのモデルで変換した出力画像

Copyright © ITmedia, Inc. All Rights Reserved.