――本作のクレジットを見て驚いたのは、映像制作の実務が宮城さんと汐口さんの「ほぼ2名体制」で行われている点です。声優さんによる音声収録を除けば、ドラマ1本を2人で作るというのは通常では考えられません
汐口:そうなんです。今回は「エンドロールが短ければ短いほど面白い」という裏テーマがありました。普通のドラマなら何十人、何百人と名前が並びますが、今回は実質僕と宮城さんだけ。あまりに短すぎて、逆にネタになるようなクレジットになっています。
宮城:通常のドラマのように間にチェックする立場の人間が何人もいたら、このスピード感では絶対に成立しなかったでしょうね。僕と汐口さんの2人だけで完結し、AIで何ができて何ができないかという制約をリアルタイムに共有できていたからこそ、これだけの短期間で完パケまで持っていけました。
――本作は地上波放送の前に、まずショート動画配信プラットフォーム向けに企画されたという経緯がありますね
汐口:ええ。もともと縦型のショート動画プラットフォームに出すという立て付けで企画が決まっていて、それを地上波でも放送するという流れでした。5分程度の短い尺の一本勝負であれば、今のAIの技術でもやれるのではないかと考えたんですが、このあとお話しするテレビ放送に向けた社内調整も、先に配信の企画があったのでスムーズに事が運んだという背景もあります。
――50分尺(全編合計)のドラマを、実質2カ月という短いスパンで完成させたというタイムラインについても詳しく伺えますか
宮城:4月に「やりましょう」と決まり、5月末に脚本が上がって、6月から7月にかけて一気に映像を生成しました。最初の1カ月で50分の映像素材を1カ月程度で作りきった形です。
汐口:宮城さんが作った映像を受け取って、僕が編集を並行して進めていきました。8月には音入れなどの作業をして、9月放送というスケジュールです。まさに、ロケに行って素材を撮ってくる代わりにAIが素材を生み出し、それをバラエティ番組を編集するような感覚でつないでいくワークフローでした。
――汐口さんはこれまで「名探偵コナン」などのアニメ作品に携わってこられた経験もあると伺いました。本作にもそれは生かされているのでしょうか?
汐口:そうですね。アニメ制作では、尺に合わせて口パクを調整したり、絵のバリエーションから最適なものを選んだりする工程がありますが、今回の制作はその感覚に非常に近かったです。宮城さんには、1つのシーンに対してキャラクターの表情や角度が異なるバリエーションをいくつも出してもらいました。僕はその膨大な素材を受け取って、どれが一番このせりふの感情に合うかを選別していく。基本的には「ロケ素材はもうそろっている」という前提で編集に臨む感覚でしたね。
――宮城さんは、リテイクを繰り返すというよりは、最初から選択肢を多く提示するスタイルだったのですね
宮城:はい。1つのカットに対して何十パターンも作り、トータルでは2万カット近くを生成しました。AIの場合、一度指示を出せばそこからバリエーションを作るのは得意ですから、その中から汐口さんに選んでもらう方が、納期が限られた中では効率的だと判断したんです。
――特筆すべきは「リップシンク(口の動きの合致)」の工程です。AIの自動機能をあえて使わなかったそうですが
汐口:自動リップシンクを試すと、どうしても演技としての感情が乗らないというか、不自然な「気持ち悪さ」が出てしまったんです。そこで、宮城さんが生成した大量の素材の中から、僕が目視で「この口の動きなら、このせりふがいける」という箇所を探し出し、力技でつないでいきました。映像の口が「〜だわ」と動いていれば、脚本の語尾をその場で書き換える。アニメの制作経験があったからこそ、この「映像に言葉を寄せていく」という逆転の発想ができたんだと思います。
――キャラクターのビジュアル調整についても伺わせてください。特定の有名人に似せないこと、そして全編通して同じ人物に見える「同一性」の確保は非常にハードルが高かったのではないでしょうか
宮城:そこが最大の挑戦でした。特定の俳優さんの名前をプロンプトに入れることは法務・倫理の観点から絶対に避けるというルールを徹底したので、ゼロからオリジナルのキャラクターを生成しなければなりませんでした。名前を使わずに言葉だけで造形を固定していくのは、まさに格闘でしたね。
汐口:実はここで一番もめたんですよ。宮城さんが最初に出してきたキャラクターが、僕のイメージする「港区女子」と全然合わなくて。僕はもっとシュッとしていて、どこか影があるようなイメージだったんですが、最初に出てきたのは渋谷のギャルみたいな子だった。「いや、港区女子はそうじゃないんだ!」って、何度もやりとりしました。
――!。プロンプトの指示は「その画面がどう構成されているか」という点に加え、具体的な「撮影指示」にも重点が置かれていたようですね
宮城:はい。カメラワークに関してはAIツールの自動機能などは一切使わず、全て文字(プロンプト)で制御しました。カメラのポジション、画角、レンズの種類、光源の方向、さらには眼球や口元の動きまで、実写の現場で行う演出を全て英語のプロンプトに落とし込んでいます。
――基調講演では複数人物を同一画面に収めることの難しさについても強調されていました
宮城:主役の一人は制御できても、二人並んだ瞬間にそれぞれの顔のレファレンスが難しくなり、同一性の担保がとたんに困難になります。二人並ぶシーンは、僕らの中で「特殊カット」と呼ぶほどの大仕事でした。
汐口:場所や関係性を分からせるために、まずは背景や小物を見せてイメージを植え付け、あとはカットバックでつないでいく。編集で「空間」を錯覚させる工夫が必要でした。
――使用したツールとバージョンについても教えてください
宮城:画像生成は「Midjourney」、動画生成は「Runway Gen-2」をメインに、一部「Hailuo AI」も使用しました。制作期間中もAIは進化し続けていましたが、途中でバージョンを変えるとトーンが変わって破綻してしまいます。そのため、あえてバージョンを固定し、一貫性を担保するための最新便利機能も使わずに完走しました。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR