Google、話しかけるだけで動画を生成できる「Gemini Omni」提供 自分のアバター動画作成も
Googleは、あらゆる入力からコンテンツを生成できる新しいAIモデルファミリーの「Gemini Omni」を発表した。第1弾となる「Gemini Omni Flash」では動画生成に対応し、自然言語による直感的な動画編集が可能だ。5月20日からGoogleの各種アプリで順次提供を開始し、YouTubeショートでも無料で展開する。
Googleが5月20日、あらゆる入力からコンテンツを生成できる新しいAIモデルファミリー「Gemini Omni」を発表した。
開発の初期段階からネイティブなマルチモーダルとして構築しており、高い推論能力と創造力を組み合わせている。画像、音声、動画、テキストを自由に組み合わせて入力し、現実世界の知識に基づいた動画を生成できる。まるで会話をするように簡単に動画を編集することも可能だとする。
第1弾として、同社は「Gemini Omni Flash」をGeminiアプリ、Google Flow、YouTube Shortsで順次提供する。自然言語だけで直感的に動画を編集でき、全てのプロンプトが前の文脈を引き継ぐ仕様だ。登場キャラクターの見た目や特徴は一貫して保たれ、物理法則も崩れずにシーン全体の流れが記憶される。自分で撮影した動画をベースに、内容を自由に変更したり追加したりできる。
Gemini Omniは重力、運動エネルギー、流体力学といった物理法則も理解し、科学や歴史への知識も有する。これにより、水や物の動きがより自然で、リアリティーあふれるシーンを創り出すという。短いプロンプトを入力するだけで、難解で複雑なアイデアを分かりやすく解説する動画を作成でき、タンパク質の折りたたみを解説するクレイアニメなども再現する。
さらに、画像、テキスト、動画、音声など、どんなフォーマットからでも、それらを組み合わせた1つの動画作品を作り上げる。入力レファレンス機能を使うことで、お気に入りのキャラクターの画像、背景シーン、手書きのスケッチなどを活用し、思い描くシーンに一致した作品を創り出せる。自分の声を使って動画を作成できるアバター機能も提供し、見た目も声も自分そっくりのデジタルバージョンを生成できる。
Gemini Omniで作成された全ての動画には、電子透かし技術「SynthID」が埋め込まれる。動画が同モデルによって生成されたものかどうかは、GeminiアプリやGoogle検索などを通じて簡単に確認できる。Gemini Omni Flashは5月20日から世界中のGoogle AI Plus、Pro、Ultraユーザーを対象に順次提供を開始する。今週からはYouTube Shortsなどで、数週間以内にはAPIを通じて開発者向けにも提供する。
関連記事
Googleが公開「空飛ぶバナナで遅刻回避する動画」──生成はGeminiなら朝飯前 それでも注意点がある理由
GoogleがX(旧Twitter)でとある短編動画を公開した。人間が巨大なバナナにまたがり、まるで乗り物のように街を疾走して会社へ向かう、コミカルで非現実的な光景を描いたこの15秒の動画だ。しかし、取り扱いには注意すべき理由がある。レシートをめくる動画でGeminiが金額を自動集計 個人の“ずぼら家計簿”がとても便利になった
Geminiにレシート動画をアップロードして、家計簿の入力を省力化できました。Pixelシリーズに「Gemini Live」でカメラに写ったものについて会話できる新機能追加
Googleは、Androidスマートフォン向けに、「Gemini Live」に端末のカメラを通して見ているものを認識させ、それについて会話できる新機能を発表した。まずは「Pixel 9」シリーズと「Galaxy S25」で利用可能になる。女優の杏さん直伝、Google Geminiの使い方5選 なぜ、6時間のパリ観光でも安心できた?
女優の杏さんがGoogleのAIをパートナーとして活用し、フランスのパリで6時間の観光を満喫する様子を紹介する。事前のスケジュール作成やマップとの連携をはじめ、現地でのメニュー翻訳や歴史の解説など、AIの多岐にわたる活用術を解説する。写真撮影のアイデア出しや、見慣れない食材の用途を調べる具体的なシーンも扱う。レシートをめくる動画でGeminiが金額を自動集計 個人の“ずぼら家計簿”がとても便利になった
Geminiにレシート動画をアップロードして、家計簿の入力を省力化できました。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.