このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
米UNC Chapel Hillの研究チームが開発した「StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation」は、テキストから画像を生成するText-to-Imageモデルで漫画風の物語(ビジュアルストーリー)を構築できるシステムだ。登場人物のせりふは生成されないが、一貫して登場人物や背景の整合性がとれた一連の画像を生成する。
自然言語で書かれたテキストに応じて高品質な画像を生成するText-to-Imageモデルが多くの人に利用されており、生成した画像を活用する創作活動も多方面で行われている。例えば、漫画の背景に活用する方法である。
しかし背景だけなら作成しやすいが、登場人物を含めると途端に難しくなる。毎回登場人物の外見が変わってしまい、またキャラクターの配置や姿勢、表情が作れない場合も多いからだ。
こういった課題に対して、今回はText-to-Imageモデルを改良してテキストからビジュアルストーリーが作れるモデルを提案する。
このモデルでは、ベースとなるデータセットとは別にソースフレームとなる初期シーンの画像を追加する。ソースフレームを含めることで、モデルは登場人物の外見や物語の舞台となる設定などにアクセスし、以降の画像を生成する際に初期シーンの視覚的要素をコピーして一連の画像に継続性を与えることができる。
この継続タスクを実現するために、既存のText-to-Imageモデル(今回はDALL-Eを使用)を微調整する。その際に、DALL-Eのアーキテクチャに継続タスクに特化した2つのモジュールを追加する。継続タスクのためのフレームシーケンスを生成するためのGlobal Story Encoderと、ソースフレームからのコピーするためのCross-Attention Blockである。
モデルを評価するために、人気アニメ「Pororo the Little Penguin」(ポンポン ポロロ)のデータセットであるPororo story visualization(SV)を用いて学習した。このデータセットには9匹のキャラクターが繰り返し登場し、これらキャラクターをもとにテキスト内容に応じたビジュアルストーリーを生成する。
他にもこのモデルを評価するために、既存のデータセットであるFlintstonesSVを用いてテストした。また汎化能力を評価するため新しいデータセットDiDeMoSVを作成しテストした。DiDeMoSVはビデオキャプションのデータセットであり、1万の短いクリップと4万以上のテキスト説明が付与されている。
これらを実行した結果、ソースフレームの画像をもとに各テキストに応じた、継続性の高い画像群を安定して出力し、その有効性を示した。
さらに比較用として多くの画像生成タスクで良好な結果を出してきたGAN(Generative Adversarial Network)と、今回の継続タスクを組み合わせたモデル「StoryGANc」を開発した。これらを比較した結果、StoryGANよりもStoryDALL-Eの方が優れていることを示した。
Source and Image Credits: Maharana, Adyasha et al. “StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation.”(2022).
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR