米カーネギーメロン大学に所属する研究者らが発表した論文「Sketching the Future（STF）: Applying Conditional Control Techniques to Text-to-Video Models」は、パラパラ漫画のような連続する絵とテキストプロンプトを入力に、リアルな動画を生成する学習モデルを提案した研究報告である。

　例えば、テキストプロンプトに「夕焼けに浮かぶ熱気球」を入れ、手書きで簡易的に描いた気球の絵を3枚を入力に使用する。その際、気球の絵は左から右へ移動するように描く。すると、夕焼けの空を左から右に移動する気球の動画を出力する。

上段が基本的なテキストプロンプト、2段目が入力スケッチ、3段目が補間、下段が生成した映像

　Text-to-Videoモデルでは自然言語の文章を入力に動画を自動生成してくれるが、ビデオに登場する人物や物を思うように動かすことは難しい。一方で、ポーズを指定して画像を生成できる「ControlNet」というモデルがある。

　この研究では、ゼロショットのText-to-Video生成の利点とControlNetが提供する堅牢な条件制御技術を組み合わせた新しいアプローチ「Sketching the Future」（STF）を提案する。モデルでは、複数のスケッチフレームを入力とし、これらのフレームの流れに一致するビデオ出力を生成する。

　複数のスケッチは、パラパラ漫画のように同じ絵を少し移動させながら連続的に描く必要がある。この連続に描いた絵に合うように、登場する人や物が動作する。このスケッチは事細かく描く必要はなく、フレーム数も少なく、雑に描いた絵でもいい感じに動いてくれる。

　モデルは複数のフレームと時間のペアを入力として受け取り、それらのフレームと時間のペアに一致するビデオ出力を生成する。まず入力されたスケッチ間のフレームを補間する。例えば、通常であれば10フレーム欲しいところ、3フレームしかスケッチしていない場合、その間を絵で補完してから次のステップに進む。

　次は、描いたスケッチと新しく生成した補完フレーム、テキストプロンプトからText-to-Videoモデル（Stable Diffusionを使用）を利用して、フレーム間で前景と背景の一貫性を保つビデオを生成する。

この手法で生成した浜辺を人が横切るシーン

　実験によると、この手法は、追加のビデオデータで学習していないにもかかわらず、高品質かつ一貫性のあるビデオコンテンツを生成できることが分かった。従来のText-to-Videoモデルとは異なり、スケッチフレームを含めることで、より希望する動作の仕様に沿った映像コンテンツを生成できることを実証した。

Source and Image Credits: Dhesikan, Rohan, and Vignesh Rajmohan. “Sketching the Future（STF）: Applying Conditional Control Techniques to Text-to-Video Models.” arXiv preprint arXiv:2305.05845（2023）.

“画像の面白さ”を解説できるAI「MiniGPT-4」　写真からラップや詩、料理レシピ作成　デモサイトも公開中
サウジアラビアのキング・アブドゥッラー科学技術大学に所属する研究者らは、画像の視覚的特徴を捉えて大規模言語モデル（LLM）で高品質な言語出力を行うシステムを提案した研究報告を発表した。
武蔵野美大の「生成系AIについてのメッセージ」が“分かってる感ある”と話題　冷静な分析と理解から利用ルールを論じる
武蔵野美術大が発表した「生成系人工知能についての学長からのメッセージ」が「分かってる」「素晴らしい」と話題だ。ChatGPT登場以降、各地の大学がその取り扱いについて立場を表明しているが、武蔵野美術大学は5個の観点から生成系AIの課題と扱いについて論じている。
歌詞を入力するだけでAIが作曲、歌ってくれる「SongR」話題　日本でも研究されてきた技術
Webブラウザから英語の歌詞を入力するだけで、AIが作曲して楽曲を自動生成する「SongR」が話題だ。日本語の歌詞なら、別の日本のサービスがおすすめだ。
サイバーエージェントが公開した大規模言語モデルの実力を試す
5月16日、サイバーエージェントが商用利用可能な7B（68億パラメータ）の大規模言語モデルOpenCalm7Bを公開した。早速その実力を試してみた。
AIの「学習」と「推論」って何が違うの？　“ハコ”に例えてカンタン解説
AIの「学習」と「推論」は何が違うのか。この違いを押さえておくことで、AIに関する議論をする際にもポイントが分かりやすくなるはずだ。