このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
中国の浙江大学と武漢大学に所属する研究者らが発表した論文「Catch You and I Can: Revealing Source Voiceprint Against Voice Conversion」は、音声変換技術によって処理した音声から、ソース話者の声紋を復元する手法を提案した研究報告である。
音声合成技術の一つである音声変換は、言語内容を変えることなく、自分の声を別の人に似せることができる技術である。使い方によっては便利な技術だが、悪用されるケースも多々報告がある。例えば、被害者の家族に似せた声に変換してお金を振り込ませたり、社長に似せた声に変換して部下に振込みを指示したりである。
この研究では、音声変換技術によって処理した音声から、ソース話者の声紋を復元するアプローチを提案する。開発したシステム「REVELIO」は、変換した音声の元の個人的な特徴を再構築し、抽出した声紋が話者検証・識別システムを通じてソース話者と一致するようにすることを目的としている。
音声変換した音声から高い信頼性で識別可能な声紋を復元するには、単純な分類モデルでは困難である。そのためシステムでは、表現学習を利用してソース話者の声紋を再構築する。
表現学習モデルでは、変換した音声を入力とし、ターゲット話者との関連性が高い特徴のみを取り除くことで、ソース話者の識別可能な音声特性を抽出する。
表現学習モデルを学習するために、4つの一般的な音声変換技術によって変換した9691人のソース話者(総計677万9000音声サンプル)からなる大規模データセットを構築した。
REVELIOの有効性を評価するために大規模な実験を実施した。結果、復元した声紋は、話者検証・識別システムによって95%以上の精度で話者として正しく識別されることを実証できた。また男女間の変換や未知の言語、電話越しでも頑健な性能を発揮することを確認した。
Source and Image Credits: Jiangyi Deng, Yanjiao Chen, Yinan Zhong, Qianhao Miao, Xueluan Gong, and Wenyuan Xu. CATCH YOU AND I CAN: Revealing Source Voiceprint Against Voice Conversion
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR