「写真の中の人物を動かして、動画にするAI」が、SNSでバズっている。
Threadsでは、「亡くなった人の写真を動画にしてほしい」「生きていたらどんなふうに成長するのか見たい」などの依頼が多数あり、“AI職人”たちが写真を生成AIで動画にして返信。「涙が出ました」など喜ばれているシーンをよく見る。
ただ筆者はこのブームに違和感を覚えていた。「AIが作った動画は、本人と全然違うのでは」と。
そこで試してみることにした。自分の写真を動画にし、本物の自撮り動画と比べてみたのだ。
結果は「誰これ?」。服装や髪型は筆者なのだが、表情や仕草は完全に別人の動画ができた。しかも動きが欧米だ。
試した方法と実際の動画を紹介しながら、AIで静止画を動画にする意味について考える。
写真の中の人物を、生成AIで動画にするサービスは多くある。今回試したのは、Google Geminiの「Veo 3」(PC版)と、スマートフォンアプリの「Dream Face」(iOS版)だ。
生成した動画は「自分が真顔から笑顔になり、手を振る」というもの。まず自撮りで“本物”の動画をつくり、その動画から真顔の部分を静止画で切り出した。
その静止画をAIに渡し、「この人が笑って左手を振る動画を作って」というプロンプトで動画を作ってもらい、本物の動画と比べた。
AI生成の動画を見た感想は、「誰やこれ」。友人や家族に見せたが「別人」と言われた。
AI動画の私は、髪型や服装は引き継いでいるものの、笑顔で口が大きく開き、表情筋がめちゃくちゃ動く。自分で再現するとアゴが外れそうだ。動きも大げさで、欧米人の女性のようだ。
手の動かし方も違う。筆者は手を振るときに自然に指を開くが、AI生成したものは指を閉じて手首を突き出している。私はこんな手の振り方はしない。
目も違った。筆者は奥二重なのだが、「Veo」の動画だとくっきり二重。しかも突然、ネイティブ発音の英語を話し始めた。「Hey, I’m glad I run into you today HAHAHAHA!」。
なんでやねん!
これは私ではない。私の写真と、AIの学習データをかけあわせた“キメラ”だ。
ただ、筆者を知らない人から見れば「十分にリアルだし、この写真の人が動けばこんな感じなんだろう」と思うぐらいの自然さはある。写真から生成したAI動画は、本人を知らない人に「こんなもんだろう」と思わせてしまう、“上手な嘘をつく”力がある。
AIは、大量の学習データから逆算し、平均・調整して自然に見える動きや表情をつくっている。今回使ったAIは2つとも米拠点の企業のものなので、学習ソースは米国系が中心だろう。
本人のクセや特徴を反映していないのはもちろん、日本人の平均的な動きでもない。
プロンプトを細かく調整したり、本人の学習データを増やせば、本人に近付けることはできるだろう。だが、AIの学習データが“他人”をベースにしている以上、1枚の写真から汎用AIで生成した動画が、「まるで本人そのまま」になる日はまず来ないのではないか。
Copyright © ITmedia, Inc. All Rights Reserved.