ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

ポケモン風のキャラクターをAIが作成、デモページを公開 GANの高速化研究の一環としてInnovative Tech

» 2022年02月17日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 ドイツのUniversity of TubingenとMax Planck Institute for Intelligent Systems、University Heidelbergの研究チームが開発した「Projected GANs Converge Faster」は、最先端のGAN(Generative Adversarial Network)より学習が最大で40倍高速化する手法だ。その有効性を評価するために、ポケモン風のキャラクターを生成できるデモページを以下の2つのWebサイトで公開している。

(上段)実際のポケモンのキャラクター、(下段)Projected GANのデモで出力したポケモン風キャラクター
Projected GANで生成したポケモン風キャラクター

 GANは、画像生成や音声認識、自然言語処理など、幅広い分野で活用され高い成果を出しているが、学習の不安定さやハイパーパラメータの調整、計算コストが高いなどのさまざまな課題を抱えている。

 従来のGANでは、生成器が出力した画像を識別器に入力し真偽判定するが、この手法では、生成器の出力画像をそのまま識別器に供給し識別するのではなく、事前学習済みモデル(一番有効だったのがEfficientNet)の特徴表現を利用する方法を採用し、GANのこれまでの課題に挑戦する。

 そのまま事前学習済みモデルを適用しても最先端の精度にならないため、以下の戦略を含める。実画像と生成器による出力画像から、4つの畳み込み層の重みをランダムに初期化する構造を持つCCM(Cross-Channel Mixing)でチャネルから特徴を抽出。その後、CCMを拡張したU-Net構造を持つCSM(Cross-Scale Mixing)で異なる解像度から特徴を抽出し、変換したより多くの特徴を識別器に供給する。

(左)CCM、(右)CSM

 この手法を最先端モデルであるStyleGAN2-ADAとFastGANとで比較した結果、この手法の方が最先端モデルより、サンプル効率と収束速度において大きく上回る結果を示した。同じ計算リソースで5日かかっていたものを3時間未満に短縮し、 最先端モデルのFIDスコア(GANの評価指標の1つ)に最大40倍の速度で達成した。 

Source and Image Credits: Sauer, A., Chitta, K., Muller, J., & Geiger, A. (2021). Projected GANs Converge Faster. ArXiv, abs/2111.01007.



Copyright © ITmedia, Inc. All Rights Reserved.