中国の上海交通大学と浙江大学の研究者らが発表した論文「Remote Attacks on Speech Recognition Systems Using Sound from Power Supply」は、遠隔から操作してスマートフォンの充電器などから人間のような音声を発声させ、音声アシスタントを攻撃する研究報告である。

　スマートフォンの充電器やノートPC用アダプター、デスクトップPC、液晶テレビなど、さまざまな電化製品には、スイッチング電源（SMPS、Switched-Mode Power Supply）という安定した直流電流を供給するための電源装置が組み込まれている。

　このスイッチング電源は、電流の変化によってスイッチング電源に音を発生させられることが確認されている。そこで研究チームは、電力網を介して悪意ある信号を電流に変調し、スイッチング電源から音声を流すことで音声認識システムを攻撃できないかと考えた。

「SINGATTACK」のシステム概要。赤い矢印は、変調された信号が伝送される方向を示す

　「SINGATTACK」と呼ぶ今回の攻撃システムを実現するには、変調した電流から音声アシスタントが反応する自然言語に変換しなければならない。そのため、変調した電流とスイッチング電源から発する音の関係をモデル化するための強化学習モデルを導入する。

　このモデルでは、あらかじめ収集した被害者の音声サンプルを用いて、被害者の音声サンプルと一致する人間に近い合成音声が出力されるように学習する。学習が済んだモデルで生成した電力成分を電力網から注入することで、スイッチング電源を介して悪意ある音声コマンドを出力する。

　この攻撃はハードウェアの改造を必要としないことや、電力網から攻撃信号を送れるため遠距離からの攻撃を可能にする利点を持つ。

　実験では、収集した被害者の音声サンプルとSINGATTACKシステムを介して出力した合成音声の類似度を比較した。その結果、攻撃を成功させるのに十分な忠実度を示した。

実験の設定。丸で囲んだ数字は、攻撃が行われた場所を示す。

　また被害者10人を対象に、音声認識システムを攻撃する実験を行った。10人はそれぞれ異なるスマートフォンと音声認識システム（Google、Apple、Amazon、Samsungなど）を持っている。

　10人の被害者に対して9mの距離から5回攻撃を繰り返した結果、1人の被害者に対する精度は90％に達した。SamsungとAppleのスマートフォンは周波数特性が優れているため、最も高い精度を達成した。複数のデスクトップを使用した場合は、10台の音声認識システム全てに対して100％の成功を収めた。

　攻撃距離を伸ばした実験では、攻撃者と被害者が異なる部屋（14～23m）にいる場合でも、攻撃者は1台のデスクトップを使用して10台の音声認識システムのうち5台を攻撃でき、攻撃した5台の音声認識システムのうち平均74％の精度を達成した。

Source and Image Credits: Lanqing Yang, Xinqi Chen, Xiangyong Jian, Leping Yang, Yijie Li, Qianfei Ren, Yi-Chao Chen, and Guangtao Xue, Shanghai Jiao, and Xiaoyu Ji. Remote Attacks on Speech Recognition Systems Using Sound from Power Supply

この連載を「連載記事アラート」に登録する New