このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
中国の浙江大学に所属する研究者らが発表した論文「Inaudible Adversarial Perturbation: Manipulating the Recognition of User Speech in Real Time」は、ユーザーが音声アシスタントに音声入力している際、横から不可聴音の悪意ある音声を混ぜて異なる入力内容に変更する攻撃を提案した研究報告である。
例えば、ユーザーが「窓を閉めて」という音声コマンドを入力しているのに、攻撃に合うと「ドアを開けて」という音声コマンドにリアルタイム変換される。
先行研究では、自動音声認識(ASR)モデルに対しての敵対的な音声攻撃が報告されている。可聴音だけでなく人には聞こえない超音波による攻撃も報告されている。しかし音声アシスタントは、音声コマンドを受信した後、常にフィードバック(例えば、音声プロンプトやLED点滅)を提供するため、ユーザーに気が付かれやすい課題が存在する。
この研究では、この課題に焦点を置いたASRモデルへの攻撃「VRIFLE」を提案する。新たに開発した超音波変換モデルをベースに、ターゲットであるユーザーが音声アシスタントに話しかけている間に敵対的摂動を注入し、認識結果をリアルタイムで変更する。
VRIFLEは完全に聞こえない攻撃であり、最大で10m離れた場所から行える。この攻撃の特徴は、音声アシスタント自体はユーザーのコマンドに応答しているため、改ざんしていることに気が付かれないステルス性の高さにある。
幅広い実験をデジタル世界と物理的な現実の両面で行い、例えば攻撃範囲を10mに広げたりといった異なる設定で、VRIFLEの効果を評価した。また、6つの異なる防御策に対する頑健性も検証した。
その結果、2万7531件の未知のユーザーの発話を無音化し、1万8956件の発話を変更することに成功し、VRIFLEの普遍性を立証した。また、ポータブルデバイスや日常的なスピーカーでも攻撃を行い、VRIFLEの提供方法をよりステルスな形態に拡張できることも示した。
Source and Image Credits: Li, X., Yan, C., Lu, X., Zeng, Z., Ji, X., & Xu, W.(2023). Inaudible Adversarial Perturbation: Manipulating the Recognition of User Speech in Real Tim. arXiv preprint arXiv:2308.01040.
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR