検索
ニュース

AIが生成した“偽音声”を見抜く技術 99%以上の精度で検出Innovative Tech

米フロリダ大学の研究チームは、音声生成モデルで作成された合成音声を見抜く検出器を開発し検証した研究報告を発表した。音声から声の通り道「声道」を作成して、その声道から人の音声か偽物の音声かを識別する。精度は99%以上だという。

Share
Tweet
LINE
Hatena

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米フロリダ大学の研究チームが発表した論文「Who Are You(I Really Wanna Know)? Detecting Audio DeepFakes Through Vocal Tract Reconstruction」は、音声生成モデルで作成された合成音声を見抜く検出器を開発し検証した研究報告だ。音声から声の通り道「声道」を作成して、その声道から人の音声か偽物の音声かを識別する。精度は99%以上だという。


人の声道と合成音声の声道の違い

 人の声をまねた合成音声はロボットっぽい音で出力されていたが、近年では機械学習モデルの進歩により、合成音声の品質は劇的に向上して人間っぽい音で出力されるようになってきた。人間と見分けがつかないため、その分懸念も大きくなる。

 具体的には、音声による偽物の作成が可能となり、敵対者が任意のフレーズを話す標的の個人をシミュレートできるようになった。ディープフェイク(DeepFake)と呼ばれるものである。上司の音声を生成して資金送金を指示させるなど、現実的な被害も確認されている。

 一方で、ディープフェイク音声を見抜く検出技術もこれまで開発されてきた。だが多くの場合、特定のジェネレーターに関する知識が必要で、未知なる合成音声に対しては検出できなかった。

 今回はどんなディープフェイク音声でも見抜く、どのジェネレーターにも依存しない検出器を提案する。

 人間は、声帯や舌、唇などの声道構造物に空気を送り込み発声する。これらの構造を変化させることで200以上の異なる音、すなわち音素を作り出す。しかし人体の構造上、これらの音素の音響的挙動は基本的に制限されており、それぞれの音素の正しい音域は比較的狭くなる。

 これに対し、ディープフェイク音声はそのような制限はなく、数十秒のターゲット音声を聞くだけで声の特徴を抽出し、テキスト音声合成アルゴリズムを用いて、選択したフレーズをターゲットが言っているように聞こえる音声サンプルを幅広い音域で生成する。

 研究チームは、人間の声とディープフェイク音声を区別するために、調音音声学の研究を活用して発声時の人間の声道の配置を推定する流体力学モデルを開発した。動く声道から音を作り出せるように、反対に音から声道を作り出せると考えた。

 これらの予測した声道の違いから区別できるかを検証した。その違いは明らかで、人声からの声道は生物学的に複雑な形状になるのに対し、ディープフェイク音声からの声道の多くはストローが曲がったような単純で無機質な形状になる。この違いにより、どんなに人間に近い音声であっても声道が模倣できていなければ見分けられることが分かった。

 システムを評価するため実験をした結果、精度99.9%、再現率99.5%という信頼できる高い数字を達成した。さらに、どのような声道の特徴や発話部分からディープフェイク音声が検出されるかを分析した。その結果、平均して1文の発話でディープフェイク音声を検出することができ、真陽性率(TPR)は92.4%であった。

Source and Image Credits: Logan Blue, Kevin Warren, Hadi Abdullah, Cassidy Gibson, Luis Vargas, Jessica O’Dell, Kevin Butler, and Patrick Traynor. Who Are You(I Really Wanna Know)? Detecting Audio {DeepFakes} Through Vocal Tract Reconstruction



Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る