検索
ニュース

AIが作った画像が喋る 動画生成サービス「Creative Reality Studio」登場 「GPT-3」「Stable Diffusion」を利用

生成系AIの開発などに取り組むイスラエルのD-IDは、アバターが喋る動画を生成できるサービス「Creative Reality Studio」を開発したと発表した。プロンプトを基に、AIが画像や喋らせたい内容を生成。それらを自動合成し、動画として出力する。

Share
Tweet
LINE
Hatena

 生成系AIの開発などに取り組むイスラエルのD-IDは12月14日、画像が喋る動画を生成できるサービス「Creative Reality Studio」を開発したと発表した。プロンプトを基に、AIが画像や喋らせたい内容を生成。それらを自動合成し、動画として出力する。


画像が喋る動画を生成できるサービス「Creative Reality Studio」が登場

Creative Reality Studioの設定画面

 無料プランでの利用は20クレジット分まで、有料プランは月額5.99ドルからで企業向けプランも用意している。記者も無料プランで利用してみた。まずはアバター画像生成のために「android girl,blue eyes」と入力したところ、以下のような画像を生成できた。


「android girl,blue eyes」で生成した画像

 次に喋らせる内容を生成するため「PCとは何ですか?」と入力した。すると「PCは、プログラミング言語『C++』をベースにした機器で、コンピューターやソフトウェア開発に関する技術を使っています。PCは、家庭用やビジネス用、携帯電話用など幅広く利用されています」(原文ママ)という文章を生成した。

 読み上げの言語設定を日本語に設定したところ、男性ボイス「Keita」と女性ボイス「Nanami」の2種類のボイス候補が出現。またNanamiを選んだ場合、「chat」「customerservice」「cheerful」の3種類から具体的な読み上げ方を選ぶことができた。今回は、cheerfulを選択。これらの条件で作成した動画が以下のものになる。なお、動画化には2クレジットを消費した。

 Creative Reality Studioでは、D-ID独自のディープラーニング技術の他、文章の生成には米Open AIの「GPT-3」、画像の生成には英Stability AIの「Stable Diffusion」を利用しているという。テキストの読み上げは日本語など119の言語に対応している。

 画像についてはテンプレートを複数用意している他、写真をアップロードして利用可能。音声についても、ユーザーが入力した文章をそのまま読ませることができる他、事前に収録した音声データをアップロードして利用することもできる。

画像はテンプレートから選択し、テキストは記者が入力した内容を男性ボイス「Keita」で読み上げさせた

 D-IDは「このサービスを利用することで、動画コンテンツ制作のコストと手間を根本的に削減できる。ブランドや企業、クリエイターなど多くの人たちは、1枚の画像を使って魅力的な動画を簡単に作成できる」と説明。

 同社のギル・ペリーCEOは「クリエイティブなジェネレーティブAI技術の可能性はまだ始まったばかりで、これから世界を席巻していくだろう。このプラットフォームを生み出し、新たなジェネレーティブAIシーンの最先端にいることを大変誇りに感じている。ユーザーの皆さまの成果を楽しみにしている」とコメントしている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る