メディア

カテゴリ：

ネットの話題

コーナー：

セキュリティ

スタートアップ

SaaSの選び方

ITmedia NEWS > STUDIO >

ITmedia AI＋ AI活用のいまが分かる

唇の動きを読み取ってその人らしく音声合成　インド工科大「Lip2Wav」開発：Innovative Tech

» 2020年09月04日 07時52分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　インド工科大学ハイデラバード校と同カンプール校による研究チームが開発した「Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis」は、話者の口唇の動きだけを基に自然な音声を生成する機械学習ベースの手法で、「Lip2Wav」という名称を持つ。

顔が映った動画を入力に、口唇の動きだけから自然な音声を生成する

　口唇を正確に読み取るには文脈や話者固有の手がかりが重要であるとし、ランダムな話者を対象とするのではなく、特定の人の発話を長時間観察してその発話パターンを学習することに焦点を当てた。

　個々の話者の口唇発話モデルを学習するために、英語話者5人による合計約120時間のビデオデータを収録し、大規模なデータセットを作成した。

　Lip2Wavは口唇の動きのシーケンスを抽出するエンコーダと、高品質の音声合成を生成するデコーダで構成される。

口唇音声合成のためのLip2Wavモデル

　Lip2Wavは顔が映った映像を入力に用い、3次元畳み込みニューラルネットワークで口唇運動をエンコードし、デコーダはこの口唇の動きを条件として音声合成に必要なメル周波数スペクトログラムを生成する。

　生成された音声合成は、口唇の動きから発話する内容を読み取っているだけでなく、これまでの類似研究よりも機械っぽさが薄れ、より自然な声での出力が得られたとしている。比較はYouTube動画で確認できる。

関連記事

グランツーリスモSPORT最速完走をAIで　達人を凌駕する技術、ソニーなどが開発
タイムトライアルを最速で。達人のドライビングテクを学習することで、AIが全ユーザーを抜き去った。
“顔写真の邪魔な影”を後から消せるAI技術　UCバークレーやGoogleなどが開発
ライティングに失敗したけど二度と撮れない写真。そんな写真を修復できるかもしれない。
Webカメラ1台で多人数モーションキャプチャーする「XNect」　深度センサーも専用スーツも使わずリアルタイムで
安価なWebカメラで深度センサーや専用スーツを使ったモーションキャプチャーシステムを凌駕する。

関連リンク

Lip2Wav

Copyright © ITmedia, Inc. All Rights Reserved.

AI活用のいまが分かる「ITmedia AI＋」

Special

PR

業務部門が抱える課題をITで解決（キーマンズネット）

SaaS最新情報 by ITセレクト

在庫管理を「自動化」する方法｜時代遅れの「経験やカンだけ」に頼らない在庫管理システムの選び方

BIとは何？　データドリブン型の「経営判断・意思決定」を支援するおすすめIT製品を紹介

エクセルで実践する経費精算管理　無料でできる管理シートの作り方と「エクセル管理の意外な限界」

RANKING

1

Apple、新iPad Proの動画「Crush!」について「的外れだった」と謝罪

2

新iPad Proの動画「Crush!」炎上、世界に広がる

3

デルで情報漏えいか　海外では4900万件流出との報道も　【ユーザーに届いたメール全文掲載】

4

太陽フレア、3日間で5回の“Xクラス”　NICT「早ければ10日午後6時ごろから影響」

5

LINEヤフー、韓国ネイバーとの委託関係を終了へ　PayPayとLINEのアカウント連携も延期に

もっと読む »

メールマガジンのお知らせ

ITmedia NEWSメールマガジン最新号テクノロジートレンドを週3配信

ご購読はこちら »

ITmediaはアイティメディア株式会社の登録商標です。

メディア一覧 | 公式SNS | 広告案内 | お問い合わせ | プライバシーポリシー | RSS | 運営会社 | 採用情報 | 推奨環境