汐口：ええ。もともと縦型のショート動画プラットフォームに出すという立て付けで企画が決まっていて、それを地上波でも放送するという流れでした。5分程度の短い尺の一本勝負であれば、今のAIの技術でもやれるのではないかと考えたんですが、このあとお話しするテレビ放送に向けた社内調整も、先に配信の企画があったのでスムーズに事が運んだという背景もあります。

――50分尺（全編合計）のドラマを、実質2カ月という短いスパンで完成させたというタイムラインについても詳しく伺えますか

宮城：4月に「やりましょう」と決まり、5月末に脚本が上がって、6月から7月にかけて一気に映像を生成しました。最初の1カ月で50分の映像素材を1カ月程度で作りきった形です。

汐口：宮城さんが作った映像を受け取って、僕が編集を並行して進めていきました。8月には音入れなどの作業をして、9月放送というスケジュールです。まさに、ロケに行って素材を撮ってくる代わりにAIが素材を生み出し、それをバラエティ番組を編集するような感覚でつないでいくワークフローでした。

アニメの知見を生かした「AI素材」の編集術

――汐口さんはこれまで「名探偵コナン」などのアニメ作品に携わってこられた経験もあると伺いました。本作にもそれは生かされているのでしょうか？

汐口：そうですね。アニメ制作では、尺に合わせて口パクを調整したり、絵のバリエーションから最適なものを選んだりする工程がありますが、今回の制作はその感覚に非常に近かったです。宮城さんには、1つのシーンに対してキャラクターの表情や角度が異なるバリエーションをいくつも出してもらいました。僕はその膨大な素材を受け取って、どれが一番このせりふの感情に合うかを選別していく。基本的には「ロケ素材はもうそろっている」という前提で編集に臨む感覚でしたね。

――宮城さんは、リテイクを繰り返すというよりは、最初から選択肢を多く提示するスタイルだったのですね

宮城：はい。1つのカットに対して何十パターンも作り、トータルでは2万カット近くを生成しました。AIの場合、一度指示を出せばそこからバリエーションを作るのは得意ですから、その中から汐口さんに選んでもらう方が、納期が限られた中では効率的だと判断したんです。

――特筆すべきは「リップシンク（口の動きの合致）」の工程です。AIの自動機能をあえて使わなかったそうですが

汐口：自動リップシンクを試すと、どうしても演技としての感情が乗らないというか、不自然な「気持ち悪さ」が出てしまったんです。そこで、宮城さんが生成した大量の素材の中から、僕が目視で「この口の動きなら、このせりふがいける」という箇所を探し出し、力技でつないでいきました。映像の口が「～だわ」と動いていれば、脚本の語尾をその場で書き換える。アニメの制作経験があったからこそ、この「映像に言葉を寄せていく」という逆転の発想ができたんだと思います。

宮城氏が生成した膨大な「バリエーション」から最適なものを選び、せりふに合わせて脚本すら微調整する。アニメ制作の知見がフルに生かされた

数万カットから「港区女子」を錬成する執念

――キャラクターのビジュアル調整についても伺わせてください。特定の有名人に似せないこと、そして全編通して同じ人物に見える「同一性」の確保は非常にハードルが高かったのではないでしょうか

宮城：そこが最大の挑戦でした。特定の俳優さんの名前をプロンプトに入れることは法務・倫理の観点から絶対に避けるというルールを徹底したので、ゼロからオリジナルのキャラクターを生成しなければなりませんでした。名前を使わずに言葉だけで造形を固定していくのは、まさに格闘でしたね。

汐口：実はここで一番もめたんですよ。宮城さんが最初に出してきたキャラクターが、僕のイメージする「港区女子」と全然合わなくて。僕はもっとシュッとしていて、どこか影があるようなイメージだったんですが、最初に出てきたのは渋谷のギャルみたいな子だった。「いや、港区女子はそうじゃないんだ！」って、何度もやりとりしました。

港区女子のイメージを巡って何度もやりとりが行われた

――！。プロンプトの指示は「その画面がどう構成されているか」という点に加え、具体的な「撮影指示」にも重点が置かれていたようですね

宮城：はい。カメラワークに関してはAIツールの自動機能などは一切使わず、全て文字（プロンプト）で制御しました。カメラのポジション、画角、レンズの種類、光源の方向、さらには眼球や口元の動きまで、実写の現場で行う演出を全て英語のプロンプトに落とし込んでいます。

自動機能に頼らず、カメラの位置や光の当たり方を言葉で規定することで、ドラマとしての実在感を生み出している

――基調講演では複数人物を同一画面に収めることの難しさについても強調されていました

宮城：主役の一人は制御できても、二人並んだ瞬間にそれぞれの顔のレファレンスが難しくなり、同一性の担保がとたんに困難になります。二人並ぶシーンは、僕らの中で「特殊カット」と呼ぶほどの大仕事でした。

汐口：場所や関係性を分からせるために、まずは背景や小物を見せてイメージを植え付け、あとはカットバックでつないでいく。編集で「空間」を錯覚させる工夫が必要でした。

――使用したツールとバージョンについても教えてください

宮城：画像生成は「Midjourney」、動画生成は「Runway Gen-2」をメインに、一部「Hailuo AI」も使用しました。制作期間中もAIは進化し続けていましたが、途中でバージョンを変えるとトーンが変わって破綻してしまいます。そのため、あえてバージョンを固定し、一貫性を担保するための最新便利機能も使わずに完走しました。

ファミレスでの気付きと、放送局としての責任

前のページへ 1|2|3 次のページへ