生成AIの進歩は、動画の分野にも広がりつつある。これを制作にうまく生かすことで、作業効率を向上しやすくなる。この記事では、NVIDIAのGPU「GeForce RTX」で利用できる動画回りのAI機能の近況を紹介する。
昨今、生成AIの成長には目を見張るものがある。テキストや画像だけでなく、動画での活用も急速に実用性を増している。ただ、特に動画の生成は処理に膨大なコンピューティングパワーとメモリを必要とするため、オンデバイス(ローカル)で行うのは困難とされてきた。
しかし、NVIDIAのGPU「GeForce RTX」を搭載する「RTX AI PC」と、進化したAIライブラリにより、オンデバイスでも4K(3840×2160ピクセル)解像度のAI動画生成を快適に行える環境を構築できるようになった。この記事では、その進歩についてチェックしていく。
文章や画像の生成AIモデルと比べると、動画の生成AIモデルはプロンプト(言葉)だけを使った操作が難しいという課題と共に、そもそものモデルが“巨大”であるがゆえに、GPUのグラフィックスメモリでは収まらないという問題を抱えていた。
そこでNVIDIAはRTX GPU向けに新しいビデオ生成パイプラインを開発し、Lightricksの新しい動画生成AIモデル「LTX-2」に実装した。これにより、ローカル環境で主要なクラウドベースの動画生成AIに匹敵する出力結果と、最大20秒間の明瞭な4K動画生成を実現した。
このパイプラインは、AIワークフローのGUIツール「ComfyUI」を通して稼働する。NVIDIAはComfyUIの開発コミュニティーと数カ月に渡り連携し、RTX GPUにおける動作パフォーマンスを40%最適化した上で、RTX GPUで使える「NVFP4」「NVFP8」演算をサポートした。
これにより、GeForce RTX 50シリーズでNVFP4フォーマットを使うとパフォーマンスが3倍高速化し、利用するグラフィックメモリの容量が6割削減される。NVFP8フォーマットでも、パフォーマンスが2倍高速化し、利用するグラフィックスメモリが4割削減可能だ。NVFP4/NVFP8は一部の主要モデルで利用可能で、他のモデルでもサポートを予定している。グラフィックスメモリが足りない場合は、システムメモリへのオフロードも可能なので、グラフィックスメモリが少なめなミドルレンジのRTX GPUでも利用可能だ。
ConfyUIで生成した動画は、「RTX Videoノード」を利用して4K解像度にリアルタイムでアップスケール可能だ(2月から提供予定)。
ConfyUIでNVFP4モデルを使った場合、BF16モデルを利用した場合と比較して平均で3倍の演算パフォーマンスを発揮する。NVFP4モデルが大幅な高速化に貢献していることが分かる(GeForce RTX 5090で計測)GeForce RTXを搭載したPCでComfyUIを使って動画を生成する様子を実際に見てみると、オンデバイスとは思えない速度で動画の生成が進んでいく。より高速なNVFP4フォーマットを使えることはもちろんだが、いったん解像度を抑えて出力した動画を4K解像度に“高品質で”アップスケール(超解像処理)することが時短に大きく効いている。出力された4K動画は、本当に美麗だ。
動画のベースとなる3Dオブジェクトの生成から、オブジェクトを取り込んだ上で動画の生成と4K解像度へのアップスケールまでを通しで行うデモンストレーション。動画の生成とアップスケールのプロセスは少し時間がかかるものの、「ちょっと待たされてるかな?」程度の短時間で出来上がる。一昔前では考えられないほどのサクサクぶりだ動画の編集をする上で、ファイルの検索は大きな課題だ。制作に必要な資料はもちろんだが、制作過程で作られる音声/動画ファイルや完成したファイルも含めて「どこに何があったっけ……?」と探すのに難儀したりすることもよくある。
「ファイルを種類ごとにフォルダーに分けて保存する」といったアナログ寄りとも思える対策も考えられるが、それでも「必要な(使いたい)ファイルがなぜか見つからない」ということもままある。「じゃあファイル名で検索すればいい」と思うかもしれないが、探したい時に限って「ファイル名を忘れた」なんてことも珍しくない。
そんな時に役立つのが、ローカル稼働する生成AIベースの検索エージェントだ。生成AIベースの検索エージェントはファイルの名前や形式だけでなく、その“中身”もスキャンしてデータベース化するため、「○○が映っている動画ファイル」といった若干曖昧な指示でも必要なファイルを見つけ出しやすくなるので、作業効率は着実に向上する。ローカル処理なので、プライバシーやセキュリティの問題も生じづらい。
生成AIベースの検索エージェントの代表格の1つが、Nexa.aiの「Hyperlink」だ。HyperlinkはRTX GPUによる処理の高速化に対応しており、RTX AI PCであればインデックスの作成は1GB当たり30秒、検索への応答はGeForce RTX 5090利用時で3秒で済む。同じ処理をCPUでこなした場合、インデックス作成は60倍(1GB当たり1時間)、検索の応答には30倍(90秒)の時間を要するので、効果はてきめんだ。
Nexa.aiがこのほど公開したHyperlinkの新しいβ版では、新たに動画コンテンツのサポートが加わった。これにより、動画に含まれているオブジェクト/アクション/音声を検索できるようになる。動画クリエイターにとって、これほどありがたい機能強化はないはずだ。β版は登録者を対象とする「プライベートβ」として公開されているので、使ってみたい人はNexa.aiのWebサイトから登録してみよう。
GeForce RTX 5090を搭載するPCでHyperlink Video Search Previewを試用してみたところ、やや曖昧なフレーズでもそれに近似するシーンを含む動画を見つけ出して提示してくれた。「惜しい!」という動画もヒットしてしまうが、今までのファイル検索と比べれば「ああでもない、こうでもない」とファイルをひっくり返すように探す必要がなくなる分、非常に楽だ。
Hyperlink Video Search Previewのデモンストレーション。UIから「Video Search」を選ぶと利用できる。今回は、NVIDIAのジェンスン・フアンCEOの動画が15本ほど保存されている環境で試すことができた
保存されている動画ファイルから、おおむね合致しているシーンをピックアップしてサムネイル表示してくれた。「グラフィックスカード」にやや引っ張られているような気もするが、思った以上に高精度で驚いてしまったNVIDIA純正の動画配信ツール「NVIDIA Broadcast」は、RTX GPUを活用してライブ配信やビデオ会議の映像/音声を処理してくれるアプリだ。「このアプリのためにGeForce RTX/RTX AI PCを買った」という人もいるくらい、GeForce RTX/RTX AI PCの“隠れた”キラーアプリとなっている。
そんなNVIDIA Broadcastだが、最新のバージョン2.1において人気機能の1つである「バーチャルキーライト」の処理パフォーマンスが向上し、同機能がこれまで非対応だった「GeForce RTX 3060」でも利用できるようになった。また対応可能な照明条件が増え、色温度制御の幅も広がった。
既にNVIDIA Broadcastを利用している人は、今すぐアップデートしてみよう。
AIをパワフルに使えるPCが欲しいけれど、置くスペースがない――そういう人にお勧めしたいのが、NVIDIAのミニワークステーション「NVIDIA DGX Spark」だ。
DGX Sparkは継続的にソフトウェアのアップデートを行っており、2025年10月の発売から3カ月弱で最大2.6倍のパフォーマンス向上が図れたという。一般的なデスクトップワークステーションよりもコンパクトで、スペースも取らないので、例えば「LLMやAIエージェントはDGX Sparkでいろいろ試す」ということもできる。
また、既存のPCと連携して動作させることも可能なので「動画や画像の生成AI処理はDGX Sparkで行って、編集は普段のPCで続行する」といった使い方も可能だ。
DGX Sparkはスーパーコンピューター並みの処理パフォーマンスを備えつつも、机の上に置いても邪魔にならないコンパクトサイズを実現している(写真はデモ展示されていたNVIDIA純正の「NVIDIA DGX Spark Founders Edition」)DGX SparkはUbuntu(Linux)ベースの「NVIDIA DGX OS」で稼働しており、UbuntuのGUIに慣れている人であれば改めて操作を覚え直す必要がない。普段は他OSを使っている人でも、すぐ慣れることができる。
デモンストレーションでは、DGX SparkにつないだWebカメラとマイク音声を同時に待ち受けて、マイクを通して質問すると、カメラが写している映像を加味してサクッと答えてくれるというシチュエーションが用意されていた。意地悪をして映像と無関係な質問をしても、しっかりと答えてくれるのが驚きだった。
なおデモ展示は基本的に英語で受け答えするように設定されていたが、質問の最後に「in Japanese(日本語で)」とつけ加えると、サクッと日本語テキストで返答してくれた。適切に設定をすれば、日本語音声での受け答えも可能だという。
スーパーコンピューターの“入門機”としても、有用な1台といえる。
カメラにホワイトボードに書かれた英語のロードマップを写した状態で「Please describe this in Japanese(これを日本語で表現して)」と言ってみたところ、きちんと日本語のテキストで返してくれた。これは前段で「Can you understand Japanese?」(日本語分かりますか?)と聞いて「できる」と答えたことから質問してみたのだが、本当にできて驚きである。適切に設定をすれば、日本語の返答を音声でも読み上げてもらえる生成AIをうまく活用すると、動画の制作効率は高まる。その一助として、あらためてGeForce RTX/RTX AI PCの導入を検討してみてはいかがだろうか。
Copyright © ITmedia, Inc. All Rights Reserved.
提供:エヌビディア合同会社
アイティメディア営業企画/制作:ITmedia PC USER 編集部/掲載内容有効期限:2026年1月29日