このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
ドイツのUniversity of TubingenとMax Planck Institute for Intelligent Systems、University Heidelbergの研究チームが開発した「Projected GANs Converge Faster」は、最先端のGAN(Generative Adversarial Network)より学習が最大で40倍高速化する手法だ。その有効性を評価するために、ポケモン風のキャラクターを生成できるデモページを以下の2つのWebサイトで公開している。
GANは、画像生成や音声認識、自然言語処理など、幅広い分野で活用され高い成果を出しているが、学習の不安定さやハイパーパラメータの調整、計算コストが高いなどのさまざまな課題を抱えている。
従来のGANでは、生成器が出力した画像を識別器に入力し真偽判定するが、この手法では、生成器の出力画像をそのまま識別器に供給し識別するのではなく、事前学習済みモデル(一番有効だったのがEfficientNet)の特徴表現を利用する方法を採用し、GANのこれまでの課題に挑戦する。
そのまま事前学習済みモデルを適用しても最先端の精度にならないため、以下の戦略を含める。実画像と生成器による出力画像から、4つの畳み込み層の重みをランダムに初期化する構造を持つCCM(Cross-Channel Mixing)でチャネルから特徴を抽出。その後、CCMを拡張したU-Net構造を持つCSM(Cross-Scale Mixing)で異なる解像度から特徴を抽出し、変換したより多くの特徴を識別器に供給する。
この手法を最先端モデルであるStyleGAN2-ADAとFastGANとで比較した結果、この手法の方が最先端モデルより、サンプル効率と収束速度において大きく上回る結果を示した。同じ計算リソースで5日かかっていたものを3時間未満に短縮し、 最先端モデルのFIDスコア(GANの評価指標の1つ)に最大40倍の速度で達成した。
Source and Image Credits: Sauer, A., Chitta, K., Muller, J., & Geiger, A. (2021). Projected GANs Converge Faster. ArXiv, abs/2111.01007.
ジョジョのキャラクター風に顔写真を変換する「JoJoGAN」 1枚の画像からAIが学習
「誰がモデルか、なんとなく分かる」アニメ風の顔画像に変換するAI、台湾の研究チームが開発
全て糸でできた46インチのディスプレイ カラー映像の出力や折り曲げが可能
写真内の物体を3Dモデルに変換するシステム、米Snapらの研究チームが開発
テキストから御朱印を自動生成するシステム、筑波大が開発 寺社1000カ所以上から御朱印収集、データ化Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR