このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米NVIDIAの研究者らが発表した論文「Conformer-based Target-Speaker Automatic Speech Recognition for Single-Channel Audio」は、複数人が同時に話す環境で特定の話者だけの音声を分離して識別する手法を提案した研究報告である。
話者プロファイルと補助発話(ターゲット話者)が与えられた重複多話者環境において、「単一チャネル話者自動音声認識」という特定の話者の発話を書き起こすタスクがある。この研究では、エンド・ツー・エンドの単一チャネル話者自動音声認識「CONF-TSASR」を提案する。
このモデルは、TitaNetベースの話者埋め込みモジュール、Conformer(TransformerとCNNを組み合わせたモデル)ベースのMaskNet、ASRモジュールから構成される。TitaNetは目標話者の補助発話から話者埋め込みを抽出する。MaskNetはConformerを使用して、ターゲット話者の時間周波数マスクを生成する。
ASRモジュールはConformerを使用して、マスクされた音声の特徴を書き起こす。これらのモジュールは、他の話者からの音声を無視しながら、ターゲット話者の音声を書き取るように共同で最適化される。
モデルはConnectionist Temporal Classification(入力音声データと出力する音素数のズレを調整する)ロスと、対象話者の個々のスペクトログラムロスを用いて学習する。
その結果、WSJ0-2mixextr(4.2%)において、最先端のターゲット話者の単語誤り率(TS-WER)を達成した。さらに、WSJ0-3mix-extr(12.4%)、LibriSpeech2Mix(4.2%)、LibriSpeech3Mix(7.6%)データセットにおけるTS-WERを報告し、TS-ASRの新たなベンチマークを確立した。
このモデルは、完全に重なった音声と部分的に重なった音声の両方に使用できる。提案モデルはNVIDIA NeMoツールキットを通じてオープンソース化される予定。
Source and Image Credits: Yang Zhang, Krishna C. Puvvada, Vitaly Lavrukhin, Boris Ginsburg. Conformer-based Target-Speaker Automatic Speech Recognition for Single-Channel Audio
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR