Google、話しかけるだけで動画を生成できる「Gemini Omni」提供　自分のアバター動画作成も

Googleは、あらゆる入力からコンテンツを生成できる新しいAIモデルファミリーの「Gemini Omni」を発表した。第1弾となる「Gemini Omni Flash」では動画生成に対応し、自然言語による直感的な動画編集が可能だ。5月20日からGoogleの各種アプリで順次提供を開始し、YouTubeショートでも無料で展開する。

[田中聡，ITmedia] PC用表示関連情報

LINE

Hatena

　Googleが5月20日、あらゆる入力からコンテンツを生成できる新しいAIモデルファミリー「Gemini Omni」を発表した。

　開発の初期段階からネイティブなマルチモーダルとして構築しており、高い推論能力と創造力を組み合わせている。画像、音声、動画、テキストを自由に組み合わせて入力し、現実世界の知識に基づいた動画を生成できる。まるで会話をするように簡単に動画を編集することも可能だとする。

　第1弾として、同社は「Gemini Omni Flash」をGeminiアプリ、Google Flow、YouTube Shortsで順次提供する。自然言語だけで直感的に動画を編集でき、全てのプロンプトが前の文脈を引き継ぐ仕様だ。登場キャラクターの見た目や特徴は一貫して保たれ、物理法則も崩れずにシーン全体の流れが記憶される。自分で撮影した動画をベースに、内容を自由に変更したり追加したりできる。

　Gemini Omniは重力、運動エネルギー、流体力学といった物理法則も理解し、科学や歴史への知識も有する。これにより、水や物の動きがより自然で、リアリティーあふれるシーンを創り出すという。短いプロンプトを入力するだけで、難解で複雑なアイデアを分かりやすく解説する動画を作成でき、タンパク質の折りたたみを解説するクレイアニメなども再現する。

Gemini Omniで生成された「泡のアート作品」動画

人が鏡に触れると、鏡面が波紋を広げ、人の腕が鏡の素材に変化する様子

手の上で浮かび上がる球体の中に、白黒のチェッカーボードの部屋があり、その中に球体を持つ手が無限に広がるという高度な動画も生成できる

　さらに、画像、テキスト、動画、音声など、どんなフォーマットからでも、それらを組み合わせた1つの動画作品を作り上げる。入力レファレンス機能を使うことで、お気に入りのキャラクターの画像、背景シーン、手書きのスケッチなどを活用し、思い描くシーンに一致した作品を創り出せる。自分の声を使って動画を作成できるアバター機能も提供し、見た目も声も自分そっくりのデジタルバージョンを生成できる。

バイオリニストの背景を変えて、エアプレイする動画

　Gemini Omniで作成された全ての動画には、電子透かし技術「SynthID」が埋め込まれる。動画が同モデルによって生成されたものかどうかは、GeminiアプリやGoogle検索などを通じて簡単に確認できる。Gemini Omni Flashは5月20日から世界中のGoogle AI Plus、Pro、Ultraユーザーを対象に順次提供を開始する。今週からはYouTube Shortsなどで、数週間以内にはAPIを通じて開発者向けにも提供する。

Google、話しかけるだけで動画を生成できる「Gemini Omni」提供　自分のアバター動画作成も

関連記事

関連リンク

Google、話しかけるだけで動画を生成できる「Gemini Omni」提供 自分のアバター動画作成も

関連記事

関連リンク

Google、話しかけるだけで動画を生成できる「Gemini Omni」提供　自分のアバター動画作成も