音声変換した声の“元の声”を復元する技術 中国の研究者らが開発:Innovative Tech
中国の浙江大学と武漢大学に所属する研究者らは、音声変換技術によって処理した音声から、ソース話者の声紋を復元する手法を提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
中国の浙江大学と武漢大学に所属する研究者らが発表した論文「Catch You and I Can: Revealing Source Voiceprint Against Voice Conversion」は、音声変換技術によって処理した音声から、ソース話者の声紋を復元する手法を提案した研究報告である。
音声合成技術の一つである音声変換は、言語内容を変えることなく、自分の声を別の人に似せることができる技術である。使い方によっては便利な技術だが、悪用されるケースも多々報告がある。例えば、被害者の家族に似せた声に変換してお金を振り込ませたり、社長に似せた声に変換して部下に振込みを指示したりである。
この研究では、音声変換技術によって処理した音声から、ソース話者の声紋を復元するアプローチを提案する。開発したシステム「REVELIO」は、変換した音声の元の個人的な特徴を再構築し、抽出した声紋が話者検証・識別システムを通じてソース話者と一致するようにすることを目的としている。
音声変換した音声から高い信頼性で識別可能な声紋を復元するには、単純な分類モデルでは困難である。そのためシステムでは、表現学習を利用してソース話者の声紋を再構築する。
表現学習モデルでは、変換した音声を入力とし、ターゲット話者との関連性が高い特徴のみを取り除くことで、ソース話者の識別可能な音声特性を抽出する。
表現学習モデルを学習するために、4つの一般的な音声変換技術によって変換した9691人のソース話者(総計677万9000音声サンプル)からなる大規模データセットを構築した。
REVELIOの有効性を評価するために大規模な実験を実施した。結果、復元した声紋は、話者検証・識別システムによって95%以上の精度で話者として正しく識別されることを実証できた。また男女間の変換や未知の言語、電話越しでも頑健な性能を発揮することを確認した。
Source and Image Credits: Jiangyi Deng, Yanjiao Chen, Yinan Zhong, Qianhao Miao, Xueluan Gong, and Wenyuan Xu. CATCH YOU AND I CAN: Revealing Source Voiceprint Against Voice Conversion
関連記事
- YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃 音声アシスタント機能を悪用
米テキサス大学サンアントニオ校と米コロラド大学コロラドスプリングス校に所属する研究者らは、スマートフォンやスマートスピーカーの音声アシスタント(Siri、Google Assistant、Alexa、Cortana)に対する不可聴攻撃を提案した研究報告を発表した。 - リアルな人間っぽい合成音声を生成するAI 「えー」「あぁ」「うん」なども再現 YouTubeやPodcastで学習
米カーネギーメロン大学に所属する研究者らは、より人間に近い会話の音声合成を生成できる学習モデルを提案した研究報告を発表した。 - Twitterに音声・ビデオチャット機能、まもなく導入か マスク氏ツイートで「通話機能」トレンド入り
イーロン・マスク氏は10日(現地時間)、「まもなくTwitter上の誰とでも音声、ビデオチャットができるようになる」とツイートした。 - ドレイクとザ・ウィークエンドの声を無断で使った生成型AI楽曲がSpotifyで人気に
ドレイクとザ・ウィークエンドの声で歌われる楽曲「Heart On My Sleeve」がSpotifyで公開され、25万回以上再生された。投稿したghostwriterと名乗る人物はこの曲をAIで生成したと説明。「これは始まりに過ぎない」と語った。 - ChatGPT×ラズパイ搭載の“魔改造ファービー”、世界征服を画策中? 海外プログラマーが公開
電子ペットぬいぐるみ「ファービー」を会話できるように改造した動画がTwitter上で話題になっている。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.