Google、テキストや画像から動画を生成するAI「Veo」発表 OpenAIの「Sora」対抗
Googleは「Google I/O 2024」で、テキストから動画を生成するAIモデル「Veo」を発表した。ウェイティングリストに登録できる。1080pの1分以上の動画を生成できる。
米Googleは5月14日(現地時間)、本社近くで開催したハイブリッド形式の年次開発者会議「Google I/O 2024」で、テキストから動画を生成する新しいAIモデル「Veo」を発表した。1080pの1分以上の動画を生成できるとしている。
専用サイトのウェイティングリストは同日公開。登録しておくことで、プライベートプレビューに参加できる可能性がある(提供開始次期は不明)。
米OpenAIが2月に発表した動画生成AI「Sora」は現在、一般公開の予定はない。
公式ブログによると、Veoは自然言語を高度に理解し、「タイムラプス」や「航空写真」などの用語を理解できるという。一貫性のある映像を作成でき、人や動物、物体がリアルに動く。公式ブログでは、雨の夜のアスファルトやサファリを歩く手編みの象のぬいぐるみ、海中を遊泳するくらげなど、Veoで生成した動画が紹介されている。
Google I/Oでは、映像作家と協力して実施したVeoのテストの動画が公開された。
マスク編集機能もあり、動画とテキストプロンプトにマスク領域を追加し、動画の特定の領域を変更することができる。
また、テキストではなく画像を入力して動画を生成することもできるマルチモーダルだ。画像をテキストと組み合わせてプロンプトに入力することで、Veoは画像のスタイルを参照した動画を生成する。
Googleは、将来的にはVeoの機能の一部をYouTubeショートなどにも導入する計画だ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Androidに“Google AI”の新機能 OSにGeminiを統合、「かこって検索」で問題を解く機能など
米Googleが、Android向けに搭載するAI関連の新機能を発表した。特定の部分を丸で囲って検索ができる「かこって検索」を、学習に活用できるようにする。Androidに生成AIモデルの「Gemini」を統合し、アプリ上のオーバーレイ表示から、より簡単にGeminiを利用可能になる。Google フォト、Geminiを活用した「Ask Photos」機能 質問して写真を検索
米Googleが、Google フォトにAIモデル「Gemini」を活用した検索機能「Ask Photos」を発表した。試験的な機能として、今後数カ月にわたって提供する。Google フォトのチャット画面で問いかけることで、特定の思い出を探したり、写真や動画に含まれる情報を探したりできる。Googleが「Gemini 1.5 Pro」をアップデート、軽量版「Gemini 1.5 Flash」もリリース
米Googleが5月14日(現地時間)、マルチモーダル生成AIモデル「Gemini」のアップデートについて発表した。「Gemini 1.5 Pro」のコンテキストウィンドウを100万トークンから200万トークンに拡張。高速な応答が可能な軽量モデル「Gemini 1.5 Flash」もリリースする。Google、マルチモーダル生成AIモデル「Gemini」のアプリ発表 「Bard」の名称変更も
米Googleは2月8日(現地時間)、マルチモーダル生成AIモデル、「Gemini」のスマートフォン向けアプリを発表。高性能AIモデルがモバイルデバイスに開放された格好。合わせて、常に複雑なタスクに対応する、高性能かつ最大のモデルである「Gemini Ultra 1.0」を搭載した「Gemini Advanced」も発表された。