このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
インド工科大学ハイデラバード校と同カンプール校による研究チームが開発した「Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis」は、話者の口唇の動きだけを基に自然な音声を生成する機械学習ベースの手法で、「Lip2Wav」という名称を持つ。
口唇を正確に読み取るには文脈や話者固有の手がかりが重要であるとし、ランダムな話者を対象とするのではなく、特定の人の発話を長時間観察してその発話パターンを学習することに焦点を当てた。
個々の話者の口唇発話モデルを学習するために、英語話者5人による合計約120時間のビデオデータを収録し、大規模なデータセットを作成した。
Lip2Wavは口唇の動きのシーケンスを抽出するエンコーダと、高品質の音声合成を生成するデコーダで構成される。
Lip2Wavは顔が映った映像を入力に用い、3次元畳み込みニューラルネットワークで口唇運動をエンコードし、デコーダはこの口唇の動きを条件として音声合成に必要なメル周波数スペクトログラムを生成する。
生成された音声合成は、口唇の動きから発話する内容を読み取っているだけでなく、これまでの類似研究よりも機械っぽさが薄れ、より自然な声での出力が得られたとしている。比較はYouTube動画で確認できる。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR