ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

“不自然さのない”アイコラ画像を数枚の顔写真から生成するAI 韓国チームが開発Innovative Tech

» 2023年09月27日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 韓国のKAISTなどに所属する研究者らが発表した論文「MagiCapture: High-Resolution Multi-Concept Portrait Customization」は、複数枚の顔写真から参照スタイルに応じた合成ポートレード写真を高品質に生成するシステムを提案した研究報告である。

 MagiCaptureを使用することで、数枚のセルフィーから証明写真やプロフィール写真のような特定のスタイルの高品質な画像を生成できるだけでなく、任意の人の顔を使ってさまざまなスタイルの合成画像も作成できる。

上段がソースの顔画像で左端が参照スタイル、その他が各合成した画像

 大規模言語モデルを用いて、トレーニング画像セットを利用し、特定の被写体やスタイルの生成に関する研究が進められている。これまでの方法には、ポートレート画像の生成時に十分なリアルさが得られないという問題があった。

 顔とその周囲の統合が不自然だったり、被写体のアイデンティティーが損なわれたりすることがその例である。この問題の主な原因は、少数の画像だけを使用して大規模言語モデルのパラメータを更新しようとすることにある。

 これらの課題を解決するため、MagiCaptureという新しい技術を提案する。この技術は、被写体(人物)とスタイル(写真の見た目や質感)の概念を融合し、少数の被写体とスタイルの参照のみで高解像度のポートレート画像を生成するカスタマイズ方法である。

 MagiCaptureは、ソースとなる顔と参照となるスタイルをうまく統合するよう、合成プロンプトの学習を行う。モデルが学習する際、常に正確なラベルを持つデータが利用できるわけではないため、実際のラベルがないデータに対して予測した「疑似ラベル」を使用して学習を支援する。

 また、モデルの学習をより効果的に進めるため、補助ロスを使用する。ソース画像と参照スタイルを適切に組み合わせ、不要な情報の流出を防ぐために「Attention Refocusing loss」も導入している。

不自然さが軽減されたリアルなポートレート写真が生成される

 評価実験において、MagiCaptureは他の基準モデルよりも優れていることを示した。MagiCaptureは人の顔だけでなく、人間以外のオブジェクトにも適用可能である。

Source and Image Credits: Junha Hyung, Jaeyo Shin, Jaegul Choo. MagiCapture: High-Resolution Multi-Concept Portrait Customization.



Copyright © ITmedia, Inc. All Rights Reserved.