メディア

カテゴリ：

ネットの話題

コーナー：

セキュリティ

スタートアップ

ITmedia NEWS > AI+ >

ITmedia AI＋ AI活用のいまが分かる

音声に合わせ顔の動きを深層学習で作成　Adobeなど「MakeItTalk」開発：Innovative Tech

» 2021年07月19日 10時14分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　米マサチューセッツ大学アマースト校、米Adobe Research、中国Huya Incによる研究チームが開発した「MakeItTalk」は、音声に合った顔と頭の動きを生成する深層学習フレームワークだ。音声信号と顔の静止画像から、音声と同期した表情と頭部のアニメーションを生成する。実際の顔写真やアニメキャラクター、手描きスケッチまで、さまざまな顔に対応可能だ。

音声と顔画像を入力に、音声に適応した顔の表情と頭の動きを生成する

　今回の手法は、音声とアニメーションの中間表現として、入力した顔画像から唇、顎、眉毛、鼻、頭のポーズなどの顔のランドマークを予測し、抽出したランドマークと音声信号で学習する。顔の表情と頭部の動きは別々に学習し、後で統合する仕組みだ。

　アニメーション合成に用いる手法としては、写実的な顔に対しては画像から画像へ変換する学習ネットワーク、非写実的な顔に対しては画像を歪ませる手法の2つのアルゴリズムを採用している。

アーキテクチャの概要図

　出力するアニメーションは、静止画像の顔を自然に動かし、あたかも話しているかのように錯覚させる。最先端の手法と比較しても、より表現力豊かで品質の高いアニメーションを実現したとしている。

顔のランドマークをベースに表情や頭部が動作する

写実的な顔画像からアニメキャラクターまで幅広く適応できる

関連記事

電気刺激によって勝手に動く指の動きで生体認証　シカゴ大学が技術開発
生体認証にチャレンジ＆レスポンスを持ち込める。
リモコン付きラケットで自在に魔球　東大と東工大が超音波卓球「Hopping-Pong」開発
オーグメンテッドスポーツの一つの形だという。
AirTag付けてなくても“あれどこに置いたっけ”を探す「GO-Finder」　東大が全映像記録による検索技術開発
AirTagなどの忘れ物防止タグで探せるのは、あらかじめ装着したものだけ。想定していなかった探し物対策が考案された。

関連リンク

MakeItTalk

Copyright © ITmedia, Inc. All Rights Reserved.

生成AIのビジネスユースケース一覧を見る

Special

PR

業務部門が抱える課題をITで解決（キーマンズネット）

RANKING

1

庵野秀明氏・ひろゆき氏・GACKT氏など「テレビ電話」新サービス発表へ　「人間がアプリを作る最後の時代」に

2

広告で「2秒でぽかぽか」「3分で部屋中涼しく」、実際は冷暖房能力を持たず　国民生活センターが“偽空調”に注意喚起

3

データセンターでしていいコト、悪いコト　漫画「15日後、DC業務のリアルを知るヤマダくん」【残り13日】

4

早く一人前になるために　漫画「15日後、データセンター業務のリアルを知るヤマダくん」【残り12日】

5

“月経痛体験装置 vs. 本物の生理痛”──どれくらいリアルな痛みなのか？　奈良女などが100人以上で比較調査

もっと読む »

アイティメディアからのお知らせ

キャリア採用の応募を受け付けています

SpecialPR

メールマガジンのお知らせ

ITmedia NEWSメールマガジン最新号テクノロジートレンドを週3配信

ご購読はこちら »

あなたにおすすめの記事PR

ITmediaはアイティメディア株式会社の登録商標です。

メディア一覧 | 公式SNS | 広告案内 | お問い合わせ | プライバシーポリシー | RSS | 運営会社 | 採用情報 | 推奨環境