ITmedia NEWS > 科学・テクノロジー >
セキュリティ・ホットトピックス

隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術 中国の研究者らが開発Innovative Tech

» 2023年09月01日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 香港大学や清華大学に所属する研究者らが発表した論文「Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals」は、ミリ波(mmWave)信号から音声を認識するストリーミング自動音声認識(ASR)システムを提案した研究報告である。このシステムは、周囲のノイズに強く、防音対策した部屋の外からでも取得でき、これまでと異なり長い文章をリアルタイムに認識する能力を提供する。

この手法の使用例

 無線センシングの進展に伴い、特にミリ波信号の注目が高まっている。なぜなら、音源のミリメートルレベルの振動を検出でき、従来のマイクロフォンとは異なり、ノイズや遮音の障壁を貫通する能力があるからだ。

 この研究では、ミリ波信号を用いたストリーミング音声認識システム「Radio2Text」を提案する。システムは、事前に音声を回復することなく、低遅延のストリーミングモードで1万3000語以上の単語を正確に認識できる。

 このシステムは、低品質なmmWave信号からリアルタイムで多くの語彙のテキストを正確に認識することを目的としている。まず、1万語以上の単語を認識するための力強い特徴表現能力が求められるため、Radio2Textでは、効果的な音声特徴の抽出と関連付けを可能にするエンコーダー・デコーダー型のトランスフォーマーを導入している。

Radio2Textのシステム概要

 次に、信号品質の劣化が音声情報の品質を損なう可能性があるため、クロスモーダルな構造(音声信号からラジオ信号への転移を行う特殊な構造)と蒸留の技法を用いて、低品質の信号からでも正確な認識を可能にしている。

 Radio2Textの効果と堅牢性を評価するために包括的な実験を実施した。静かな部屋、騒がしいノイズ環境、防音部屋を外側から取得する環境の3つのシナリオで行った。

実験のシナリオ。(左)静かな部屋でミリ波信号を取得するシナリオ、(中央)他の音によるノイズ環境でミリ波信号を取得するシナリオ、(右)防壁に防音状態の部屋でミリ波信号を取得するシナリオ

 結果は、1万3000語以上の語彙の認識に対して文字誤り率(CER)5.7%、単語誤り率(WER)9.4%を達成した。Radio2Textは、静かな環境、騒々しい環境、音の遮断された環境で他の類似手法よりも優れていることを示した。

 さらに、静かなシナリオでは、Radio2TextはマイクロフォンベースのストリーミングASR方法と同等であり、マイクロフォンベースの方法が失敗する騒々しいシナリオや音の遮断されたシナリオでは、Radio2Textが効果的なことを実証した。

Source and Image Credits: Running Zhao, Jiangtao Yu, Hang Zhao, Edith C.H. Ngai. Radio2Text: Streaming Speech Recognition Using mmWave Radio Signals



Copyright © ITmedia, Inc. All Rights Reserved.