メディア

カテゴリ：

ネットの話題

コーナー：

セキュリティ

スタートアップ

ITmedia NEWS > AI+ >

ITmedia AI＋ AI活用のいまが分かる

深層学習でリップシンク動画生成　SiriやAlexaにも対応する「Neural Voice Puppetry」：Innovative Tech

» 2020年01月17日 09時00分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　ミュンヘン工科大学と独Max Planck Institute for Informatics（MPII）の研究チームが2019年12月に発表した「Neural Voice Puppetry」は、任意の音声を入力を元に、その音声に合わせた写実的な顔のアニメーションを生成する深層学習を用いた手法だ。

　この手法を用いると、指定する顔の口元を操り人形のように音声駆動でアイデンティティを保持しながら動かせる。また、テキストを変換した音声合成からも生成できるため、Siri、Alexa、Google Assistantなどのデジタルアシスタントの音声も顔アニメーションに変換可能だ。

（左）デジタルアシスタントの音声を任意の人に合成し話をさせている様子、（右）任意の音声を任意の人に合成し話をさせている様子

　パイプラインは、2つの主要部分で構成される。

　音声入力からDeepSpeech RNNを用い、ブレンドシェイプで顔の3Dモデルを駆動する基礎係数を予測。

予測した基礎係数を基に、ターゲットの顔モデルをレンダリングするための最適化を行い出力する。

Neural Voice Puppetryのパイプライン

　指定する顔が動く2～3分の短いビデオがあれば訓練可能で、インターネット上の短いビデオも利用できるのが特徴。

　活用例として、遠隔会議で自分のキャラクターを表示してしゃべらせる、デジタルアシスタントの上半身をプロジェクター等で投影し動かす、動画制作で有名人に話をさせる――などが挙げられる。

関連記事

漫画キャラのせりふを、感情のこもった音声合成に変換　北京理工大学などが新技術
漫画に登場するキャラクターのせりふから感情の状態を抜き出し、それに合わせた音声を生成する技術が開発された。
NVIDIA、1枚の静止画で動きを合成　GANを用いた手法を開発　ダビデ像も踊り出す
ダビデは踊り、モナリザは表情を変える。
AirPodsでヒソヒソ音声入力　口を手で押さえるジェスチャーで　清華大学など発表
直感的なジェスチャーでひそひそ音声入力を起動できる。

関連リンク

Neural Voice Puppetry

Copyright © ITmedia, Inc. All Rights Reserved.

生成AIのビジネスユースケース一覧を見る

Special

PR

業務部門が抱える課題をITで解決（キーマンズネット）

RANKING

1

「天穂のサクナヒメ」、ソシャゲなのにゲーム内で流れる広告が圧倒的“好評”の理由　「不快感がない」「飯テロｗ」

2

Microsoft、年内期限切れになるWindowsの「セキュアブート」証明書を2月の月例パッチで更新

3

“世界最細”が日常を変えた　国産スマートリング「SOXAI RING 2」を約1カ月使って分かったこと

4

「2000ウォンずつ支給」のはずが「2000ビットコインずつ支給」　韓国2位の暗号資産取引所で送金ミス　総額7兆円相当

5

シャープ公式「BDレコーダーあります」　ソニー撤退受けコメント

もっと読む »

アイティメディアからのお知らせ

キャリア採用の応募を受け付けています

SpecialPR

メールマガジンのお知らせ

ITmedia NEWSメールマガジン最新号テクノロジートレンドを週3配信

ご購読はこちら »

あなたにおすすめの記事PR

ITmediaはアイティメディア株式会社の登録商標です。

メディア一覧 | 公式SNS | 広告案内 | お問い合わせ | プライバシーポリシー | RSS | 運営会社 | 採用情報 | 推奨環境