OpenAI、テキスト→最長1分の動画の生成AI「Sora」発表　一般公開はせず

» 2024年02月16日 07時07分公開

[ITmedia]

　米OpenAIは2月15日（現地時間）、テキストプロンプトから最長1分の動画を生成するAIモデル「Sora」を発表した。一部のユーザーに公開し、フィードバックに基づいて改善していく計画。

　SoraのWebページ（リンクは記事末）は「Soraは、テキストの指示から現実的で想像力豊かなシーンを作成できるAIモデルだ」と謳っている。このページには多数の動画が掲載されているが、すべてSoraが生成し、修正していないものという。

SoraのWebページ。背景は実際にはSoraが生成した動画

　複数のキャラクター、特定の種類のモーションなどを含む複雑なシーンを生成できるとしている。ユーザーがプロンプトで何を要求したかだけでなく、物理的な世界で実際にどのように存在するかも理解するという。

　例として挙げられた動画の1つは、「スタイリッシュな女性が、暖かく輝くネオンとデジタルサイネージで満たされた東京の通りを歩いている。彼女は黒い革のジャケット、赤いロングドレス、黒いブーツを装っており、黒いバッグを持っている。サングラスをかけ、赤い口紅をつけている。自信を持って何気なく歩いている。通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出している。多くの歩行者が歩き回っている」というプロンプトによるもの。

東京の夜の街をそぞろ歩くスタイリッシュな女性

　残念ながら看板の文字は日本語になっていないが、濡れたアスファルトにネオンが反射する様子などがリアルだ。

　Soraはまだ複雑なシーンの物理を正確にシミュレートするのに苦労する可能性があるという。例えば、人がクッキーをかじっても、クッキーにかじった後が残らないことがある。

　そうしたこともまだ一般公開しない理由の1つのようだが、主な理由は「重要な安全措置」を講じる必要があるからだ。現在、レッドチーム（誤情報や悪意あるコンテンツ、偏見などの専門家で構成する問題研究チーム）と協力して安全措置を模索している。

　また、動画がSoraによって生成されたことを検出できる分類子などのツールも開発している。OpenAIに導入する場合はC2PAメタデータを含める予定だ。

　既に米Metaや英Stability AI、米Googleなどがテキストから動画を生成するモデルをリリースしているが、いずれも生成できる動画は数秒だ。

　「Soraは、AGIを達成するための重要なマイルストーンになるとわれわれは考えている」。

OpenAIとMicrosoft、AIを攻撃に悪用するロシアや中国のアカウント停止
MicrosoftとOpenAIは、LLMなどのAIツールがロシアや中国などとつながる脅威アクターに悪用されているという調査結果を発表した。両社はこれらの脅威アクターに関連付けられているすべてのアカウントと資産を無効にしたとしている。
Google Research、かなり自然なテキスト→動画生成AI「Lumiere」発表
Google Researchは、「リアルな動画生成のための時空拡散モデル」の「Lumiere」を発表した。テキストあるいは画像から5秒間のなめらかな動画を生成する。
Stability AI、テキスト→動画の「Stable Video Diffusion」をGitHubで公開
Stability AIは、テキストから動画を生成するAIモデル「Stable Video Diffusion」のリサーチプレビュー版をGitHubで公開した。テキスト入力のためのWebツールを入手するにはウェイティングリストに登録する必要がある。
Meta、独自の動画生成AI「Emu Video」と編集AI「Emu Edit」を紹介
Metaは、9月に発表した独自の画像生成基盤モデル「Emu」に基づく2つのモデルを発表した。4秒のリアルな動画を生成できる「Emu　Video」とプロンプトで画像を編集する「Emu Edit」だ。