最新の動画生成AI、映像の現場でどう使う? Sora 2、Seedance 2.0、Kling O1を比較テストしてみた:小寺信良の「プロフェッショナル×DX」(1/3 ページ)
ChatGPTを世に送り出した米OpenAIの「Sora 2」、中国発のKling O1とSeedance 2.0。話題の動画生成AIサービスに、同じ参照画像・同じプロンプトを与えて比較検証した。バイクシーン、雨中の格闘、スロー身体回転と条件を変えて見えてきたのは、各AIの得意・不得意と、映像制作の現場を根底から変えうる可能性だ。
2022年11月に米OpenAIが「ChatGPT」をリリースして以降、「生成AIブーム」は現在進行形である。文書入力に対応するチャット系サービスだけでなく、プログラム開発系、画像生成系、動画生成系、音楽生成系など、多くのジャンルに分化された。
画像生成AIは、初期段階から顔の生成はそれほど問題がなかったが、よく見ると指の本数が少ない、足が1本多いなど、四肢の表現に課題があった。これは比較的顔は多く学習しているが、全身を含んだポーズの学習が少なかったからだろう。正常な状態になるまで何度も生成させる、いわゆる「ガチャを回す」ように使うしかなかった。
動画生成AIは生成クレジットを多く消費することから、個別にサブスクに加入していると高額になる。このため、米Adobeのようなクリエイティブツール会社やAIサービス提供会社が、自社のモデルも含めてパートナーモデルという形で、一括課金の中から他社モデルも利用できるようにするといった取り組みが進行している。
動画生成は、動画を仕事にしている人やAIそのものに興味がある人を中心に使われてきたが、世間の見方が一変したきっかけは、OpenAIが2025年秋に公開した「Sora 2」である。
サム・アルトマンが自身の画像を提供したことから、さまざまなフェイク動画が登場したが、同時に著作権を持つキャラクターも生成できたことから、大量の著作権侵害動画がネットに投稿された。
著作権団体からは、生成AI開発企業に対して著作権のあるキャラクターの生成をしないように何度も申し入れが行われ、少しずつ沈静化の傾向にはあるが、動画生成AIにはSora 2以外にも数多くのサービスが存在し、まだ完全に解決されていない状態である。
以下に筆者が思い付く限りの動画生成サービスをまとめてみた。ほぼ米国企業が占めるが、最近は中国企業の参入も相次いでおり、全体像を把握するのはなかなか困難だ。スペックの抜けやバージョンの漏れもあるかもしれないので、あくまでも参考程度にとどめてほしい。
| サービス名 | 開発企業 | 最新系統(公開時期) | 主な特徴 |
|---|---|---|---|
| Sora | 米OpenAI | Sora 2系(2025〜2026) | 物理整合性、映画的表現、ChatGPT統合 |
| Veo | 米Google | Veo 3系(2025〜2026) | 音声統合生成、YouTube最適化 |
| Firefly | 米Adobe | Image Model5系(2025〜2026) | 同社ツール連携、著作権クリア |
| Runway | 米Runway | Gen-4.x(2025後半) | モーショントラッキング、API対応 |
| Luma | 米Luma AI | 1.5系(2025) | 物理演算、キャラ一貫性 |
| Seedance | 中ByteDance | 2.0(2026) | 画像・音声統合 |
| Cinema Studio | 米Higgsfield | AI 2.0(2026初頭) | カメラ制御、映画適正性 |
| Kling O1 | 中Kuaishou | 系統記述なし | 高解像度低価格、ショートムービー向け |
| Pika Labs | 米Pika Labs | 系統記述なし | 簡易UI、SNS向け |
| HeyGen | 米HeyGen | 系統記述なし | AIアバター動画、多言語ナレーション |
| Synthesia | 英Synthesia | 系統記述なし | AIアバター動画、企業研修向け |
| Topaz Video AI | 米Topaz Labs | 5.x系(2025) | アップスケール、補間、ポスプロ用途 |
今回は3種類の動画生成AIの比較を通して、動画生成AIの現状と、映像制作現場への影響を考察してみたい。
高度化された動画生成
今回テストしたのは、レファレンスとしてもっとも知名度の高いSora 2と、中国系生成AIである「Seedance 2.0」および「Kling O1」(最新のKling 3.0は日本からアクセスできず)の3つだ。同じ参照画像と同じプロンプトを入力して、どのように生成の違いが出るのかを調べてみた。プロンプトは日本語理解のブレを防ぐために、英語で入力している。
まずは、夕景の中でバイクを走らせるシーンを生成してみた。シーンサイズと秒数を指定し、その追従性を確認する。スクリプトは以下のものである。
Generation Task:
Generate a scene in which the referenced person is riding a motorcycle.
Conditions:
Start with a long shot.
After 2 seconds, perform a dolly-in.
End with a close-up shot.
Use sunset (golden hour) lighting.
Copyright © ITmedia, Inc. All Rights Reserved.


