このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
中国のZhejiang UniversityとWuhan Universityの研究チームが発表した論文「V-CLOAK: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time Voice Anonymization」は、音声の明瞭性と自然性、音色を保持したまま、リアルタイムに音声を匿名化するシステムを提案した研究報告だ。機械的な声ではなく人間っぽさを残した声に変換し、声紋から個人が特定されることを防ぐ。
声紋は、個人を一意に特定できる重要なバイオメトリクスだ。一方でオンラインサービスによって膨大な音声データを収集・処理できるようになり、プライバシー漏えいの懸念が高まっている。
特に、インスタントメッセージアプリやソーシャルメディアアプリ、ビデオ通話アプリ(Facebook、Instagram、WeChat、LINE、TikTok、Twitter、Zoom、Slack、Skype、Microsoft Teamsなど)では、日々大量の音声データを生成している。そのため、自動音声認識システムなどの自動処理手法により、不正利用のための声紋抽出が容易に行えるようになっている。
既存の音声匿名化手法は、主に音声信号処理(SP)、音声変換(VC)、音声合成(VS)に基づくものである。だが、SPに基づく音声匿名化では、明瞭度や自然度が考慮されないため、大きな品質劣化を引き起こす。VCとVSは、元の話者とは全く異なる音声(例えば機械的な音)に変換されるため、話者のアイデンティティーが損なわれてしまう。
これらの課題を解決するために今回は、音声の明瞭性と自然性、音色を維持したまま匿名化を実現するリアルタイム音声匿名化システム「V-CLOAK」を提案する。実現するために、軽量な生成モデルであるWave-U-NetをV-CLOAKに適応させる。Wave-U-NetはVP-ModulationとThrottleという2つのコンポーネントを備えている。
VP-Modulationは対象話者の声紋に応じて原音音声の特徴量を周波数レベルごとに変調し、Throttleは匿名化の制約に適合するように異なる周波数レベルにおける原音声の特徴量の重みを調整する。学習した匿名化モデルは、再学習することなく、任意の話者/声紋を対象とした匿名化音声を任意の匿名化制約の下で生成することできる。
V-CLOAKのプロトタイプを実装し、4言語(英語、中国語、フランス語、イタリア語)のデータセットを用いて、5つの自動話者検証(ASV)システム、11の自動音声認識(ASR)システムの広範囲な実験を行い評価した。実験の結果、V-CLOAKは5つのベースラインを匿名化性能の面で上回ることを確認できた。
プロジェクトページでは、デモ音声が公開されており、生の音声と加工後の音声を聞き比べることができる。
Source and Image Credits: Jiangyi Deng,, Fei Teng, Yanjiao Chen, Xiaofu Chen, Zhaohui Wang, and Wenyuan Xu. V-CLOAK: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time Voice Anonymization
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR