ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

マスク内の音声を特定する補聴器 唇の動きをWi-Fiで読み取り、話し言葉を識別Innovative Tech

» 2022年09月21日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 スコットランドのUniversity of Glasgow、Glasgow Caledonian University、School of computing, Edinburgh Napier University、パキスタンのUniversity of Engineering and Technology、中国の東南大学による研究チームが開発した「Pushing the limits of remote RF sensing by reading lips under the face mask」は、補聴器からの無線周波数(RF)だけからの情報でマスク内の音声を特定する学習ベースのシステムだ。Wi-Fiやレーダーにより、マスク内の唇の動きを読み取り話し言葉を識別する。

RFセンシングによりマスク内の唇の動きを捉え、話し言葉を機械学習で分類する

 人は音声だけでなく、話す際の唇の動きを見て音声を認識している。難聴者にとっては読唇術は極めて重要な要素であるが、この機能を補聴器に搭載するとなるとカメラで相手の唇を撮影しなければならない。暗闇では精度が落ち、無許可で撮影するのはプライバシー侵害となる。マスク越しとなると何を話しているかを特定するのはより難しくなる。

 今回は、唇の動きをRFセンサーで検出して機械学習で言葉を分類する手法を提案する。RFはマスクを透過できるため、マスクをしていてもマスク内の唇の動きを検出できることに着目した。

 唇の動きはチャネル状態情報(CSI)の振幅に変化をもたらすため、その違いをRFセンシングで捉え機械学習アルゴリズムによって話し声に属するパターンとしてそれぞれの音声、単語、音素、文字に分類することで識別する。

 実験は、専用レーダーセンサーと無線LAN送信機(Wi-Fi)の2種類で行う。まず、参加者にマスクあり/なしで母音を繰り返し話してもらい、収集した3600サンプルのデータで機械学習モデルのトレーニングを行った。

システムの概要図

 学習モデルで読み取れるかの認識テストを行った結果、Wi-Fi信号ではマスクをしていない唇で95%、マスクをしている唇で80%の確率で正しく解釈できた。レーダー信号ではマスクなしで91%、マスクありで83%で正しく解釈できた。

 このようにWi-Fiという日常的に使用されている技術を用いて行える技術なため、現実的な実装においても補聴器にアンテナを付ける仕様で手軽に行えるだろうと、研究者らは考えている。

Source and Image Credits: Hameed, H., Usman, M., Tahir, A. et al. Pushing the limits of remote RF sensing by reading lips under the face mask. Nat Commun 13, 5168(2022). https://doi.org/10.1038/s41467-022-32231-1



Copyright © ITmedia, Inc. All Rights Reserved.