このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
米コロンビア大学の研究チームが発表した「Real-Time Neural Voice Camouflage」は、不正なマイクが取得したユーザーの会話の言葉を正しく聞き取れないようにする攻撃を提案した論文だ。無線で妨害音を発し、自動音声認識(ASR)システムをリアルタイムに混乱させ、本来盗聴側が取得したい会話を間違った形で認識させる。80%の確率でユーザーの言葉を誤認識させられたという。
この妨害音は、その場にいるユーザーの邪魔にならないような静かな音に最適化されている。
スマートフォンやIoT、音声アシスタントまで、今日では多様な機器にマイクが埋め込まれており、それらは常に音を聞いている可能性がある。さらに、自動音声認識システムを使って会話を常に処理している可能性がある。
この課題に対し今回は、自動音声認識(ASR)システムに対してリアルタイムに妨害を行い、マイクで不正に取得された音声を正しく処理できないようにするアルゴリズムを提案する。会話を妨害音(適切なささやき声)でカムフラージュする方法を採用し、自動音声認識システムが文字起こしする多様な単語を混乱させ、間違った解釈へ導く。
このような自動音声認識システムの改ざんは、理論的には以前から知られていたが、実用に耐える速度で実現することが大きなボトルネックになっていた。その会話に対して、効果的に妨害できる妨害音の瞬間的な生成が難しく、リアルタイムに攻撃するのが困難であった。
そこでこの研究では、数秒先の会話を予測しそれに対して最も有効な攻撃を予測する、予測攻撃を導入する。予測攻撃は、2秒間の入力音声を条件として、その先の会話に対する効果的な妨害音を予測し継続的に生成する。これによって、リアルタイム性能を達成する。
この妨害音は、通常の背景雑音に近い音量に最適化されており、部屋にいる人々に妨害音に気が付かれないようにしている。最終的には妨害音を完全に知覚できないようにしたいという。
実験では、予測攻撃がDeepSpeech認識システムを大きく破壊できることを示した。LibriSpeechでは、この手法がベースラインよりも単語のエラー率が少なくとも3.9倍増加し、文字のエラー率が少なくとも6.6倍増加した。
Source and Image Credits: Chiquier, Mia, Chengzhi Mao, and Carl Vondrick. "Real-Time Neural Voice Camouflage."
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR