ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

「海の中に潜っているみたい」――周囲の雑音をほぼカットできるワイヤレスイヤフォンInnovative Tech

» 2022年07月11日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米ワシントン大学の研究チームが開発した「ClearBuds: Wireless Binaural Earbuds for Learning-Based Speech Enhancement」は、周囲のノイズをほとんど遮断し対話相手の声だけを分離できるワイヤレスイヤフォンだ。

 改良したワイヤレスイヤフォンとiPhone、軽量の深層学習ネットワークを組み合わせ、周りの掃除機の音や真横で話す人の声などの大きな雑音をリアルタイムにカットし、通話中の相手の声のみを分離してクリアにユーザーの耳に届ける。

このシステムは背景ノイズの抑制、背景音声の除去、話者の分離を行い、着用者に通話中の相手の声だけをクリアに届ける

 ワイヤレスイヤフォンの急速な普及に伴い、これまで以上に多くの人が外出先で通話するようになった。これらのシステムはこれまでにない利便性を提供する一方で、そのモバイル性から、環境ノイズ(街頭音、人の話し声など)が干渉し、話者の理解が困難になるという技術的課題を提起している。

 そこで今回は、2つのイヤフォン間に取り込まれた音声を利用して、話者の音声を強調し、背景音を抑制するシステムを提案する。ワイヤレスイヤフォンをスピーカーとしてだけでなく、環境ノイズを捉えるために両耳のマイクとして利用する。また高品質の話者分離のための深層学習ネットワークを考案する。

 現在のワイヤレスイヤフォンは、電話へのマイクアップリンクの1チャンネルにしか対応していない。両耳の話者分離を実現するためには、両方のイヤフォンから同期して音声データを送信し、長時間にわたって緊密な同期を維持できる新しいイヤフォンのハードウェアを設計・構築する必要がある。

 今回は時間的に同期した2つのマイク音声をモバイル機器にストリーミングできる両耳ワイヤレスイヤフォンシステムを設計した。コイン電池で40時間の連続動作が可能だ。

提案するハードウェアの外観

 次に話者分離のための深層学習ネットワークは高い計算量が必要なため、ネットワークサイズを単純に小さくするのではなく、イヤフォンからのバイノーラル入力を利用して話者の分離を行う最適化された軽量なカスケード型ニューラルネットワークを構築した。学習データは、ソフトウェアでシミュレートした大量の音声データを使用した。

 ワイヤレスイヤフォンの同期誤差は64マイクロ秒以下、ネットワークはiPhone 12で21.4msのランタイムを記録し、システム全体はエンドツーエンドで109msのレイテンシでリアルタイムに動作する。不快なく電話するのに十分な性能だ。

このデバイスをさまざまな実環境で実験している様子

 屋内外のさまざまなシナリオで8人の参加者を対象とした実環境評価では、システムが学習データにない未知の参加者や環境にも汎化できることを示した。また37人の参加者が15.4時間かけて1041個の音声サンプルを評価した結果、今回のネットワークは他の類似ネットワークよりも高いノイズ抑制を達成した。これらの結果から、背景ノイズの抑制、背景音声の除去、話者の分離がこのシステムにより高精度で実現できることを示した。

 プロジェクトページではノイズ除去をした音声としていない音声を比較した動画やオーディオが多数掲載されており、その精度を確認することができる。

Source and Image Credits: Ishan Chatterjee, Maruchi Kim, Vivek Jayaram, Shyamnath Gollakota, Ira Kemelmacher, Shwetak Patel, and Steven M. Seitz.“ClearBuds: Wireless Binaural Earbuds for Learning-Based Speech Enhancement”



Copyright © ITmedia, Inc. All Rights Reserved.