人には正しく聞こえるが“AIにはゆがんで聞こえる声”に変えるツール　合成音声に使われないために保護：Innovative Tech

» 2023年12月11日 08時00分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: ＠shiropen2

　米セントルイス・ワシントン大学に所属する研究者らが発表した論文「AntiFake: Using Adversarial Audio to Prevent Unauthorized Speech Synthesis」は、自分の声が音声合成されないための防御ツールを提案した研究報告である。このツールで処理した音声は、攻撃者が音声合成ツールの入力に使用しても、被害者とは異なる音声が出力され、悪用ができなくなる。

AntiFakeの概要

　音声合成技術の進歩は顕著であるが、人間や機械を欺くために悪用されることもある。これはディープフェイクと呼ばれ、例えば、詐欺師たちがCEOの声を合成して部下に連絡して大金を振り込ませた事件も起きている。影響力のある人物の声を合成して誤情報やヘイトスピーチを生成し、社会に広範な悪影響を及ぼす可能性もある。法整備も追い付いていない。

音声合成技術は声優や歌手の仕事にも影響を与える可能性も

　この脅威に対処するため、研究チームは「AntiFake」と呼ばれる新しい防御ツールを開発。このツールは従来のディープフェイクを後から検出する方法と異なり、被害者の声として合成されること自体を未然に防ぐ。

　被害者が音声データを外部（SNSやWebサイトなど）に公開する前に、録音した音声信号に最適化されたノイズ（敵対的摂動）を適用する。これにより、人間の耳には正しく聞こえるが、AIには異なる音声として認識される敵対的音声が出来上がる。

　この結果、音声合成ツールが音声記録から必要な特徴を読み取ることが困難になり、被害者とは異なる音声を生成。攻撃者は悪意のある目的で人間や機械を欺くことができなくなる。

　AntiFakeの包括的な評価を行うため、研究者たちは最先端の5つの音声合成器（商業製品ElevenLabs含む）と3つの話者認証システム（商業プラットフォーム含む）を対象に評価を実施した。より現実的な評価を行うため、悪意のある目的に基づいて分類された実際のディープフェイク文を使用し、6万個の合成音声サンプルから選別したディープフェイク音声データセットを形成した。

　これを基に行われたAntiFakeの評価では、95％以上の保護率を達成し、敵対的音声がブラックボックスの商業モデルにも適用可能であることを示した。AntiFakeはコードやデモも公開中。

Source and Image Credits: Zhiyuan Yu, Shixuan Zhai, and Ning Zhang. 2023. AntiFake: Using Adversarial Audio to Prevent Unauthorized Speech Synthesis. In Proceedings of the 2023 ACM SIGSAC Conference on Computer and Communications Security（CCS ’23）. Association for Computing Machinery, New York, NY, USA, 460-474. https://doi.org/10.1145/3576915.3623209