「海の中に潜っているみたい」――周囲の雑音をほぼカットできるワイヤレスイヤフォン：Innovative Tech

» 2022年07月11日 08時00分公開

[山下裕毅，ITmedia]

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　米ワシントン大学の研究チームが開発した「ClearBuds: Wireless Binaural Earbuds for Learning-Based Speech Enhancement」は、周囲のノイズをほとんど遮断し対話相手の声だけを分離できるワイヤレスイヤフォンだ。

　改良したワイヤレスイヤフォンとiPhone、軽量の深層学習ネットワークを組み合わせ、周りの掃除機の音や真横で話す人の声などの大きな雑音をリアルタイムにカットし、通話中の相手の声のみを分離してクリアにユーザーの耳に届ける。

このシステムは背景ノイズの抑制、背景音声の除去、話者の分離を行い、着用者に通話中の相手の声だけをクリアに届ける

　ワイヤレスイヤフォンの急速な普及に伴い、これまで以上に多くの人が外出先で通話するようになった。これらのシステムはこれまでにない利便性を提供する一方で、そのモバイル性から、環境ノイズ（街頭音、人の話し声など）が干渉し、話者の理解が困難になるという技術的課題を提起している。

　そこで今回は、2つのイヤフォン間に取り込まれた音声を利用して、話者の音声を強調し、背景音を抑制するシステムを提案する。ワイヤレスイヤフォンをスピーカーとしてだけでなく、環境ノイズを捉えるために両耳のマイクとして利用する。また高品質の話者分離のための深層学習ネットワークを考案する。

　現在のワイヤレスイヤフォンは、電話へのマイクアップリンクの1チャンネルにしか対応していない。両耳の話者分離を実現するためには、両方のイヤフォンから同期して音声データを送信し、長時間にわたって緊密な同期を維持できる新しいイヤフォンのハードウェアを設計・構築する必要がある。

　今回は時間的に同期した2つのマイク音声をモバイル機器にストリーミングできる両耳ワイヤレスイヤフォンシステムを設計した。コイン電池で40時間の連続動作が可能だ。

提案するハードウェアの外観

　次に話者分離のための深層学習ネットワークは高い計算量が必要なため、ネットワークサイズを単純に小さくするのではなく、イヤフォンからのバイノーラル入力を利用して話者の分離を行う最適化された軽量なカスケード型ニューラルネットワークを構築した。学習データは、ソフトウェアでシミュレートした大量の音声データを使用した。

　ワイヤレスイヤフォンの同期誤差は64マイクロ秒以下、ネットワークはiPhone 12で21.4msのランタイムを記録し、システム全体はエンドツーエンドで109msのレイテンシでリアルタイムに動作する。不快なく電話するのに十分な性能だ。

このデバイスをさまざまな実環境で実験している様子

　屋内外のさまざまなシナリオで8人の参加者を対象とした実環境評価では、システムが学習データにない未知の参加者や環境にも汎化できることを示した。また37人の参加者が15.4時間かけて1041個の音声サンプルを評価した結果、今回のネットワークは他の類似ネットワークよりも高いノイズ抑制を達成した。これらの結果から、背景ノイズの抑制、背景音声の除去、話者の分離がこのシステムにより高精度で実現できることを示した。

　プロジェクトページではノイズ除去をした音声としていない音声を比較した動画やオーディオが多数掲載されており、その精度を確認することができる。

Source and Image Credits: Ishan Chatterjee, Maruchi Kim, Vivek Jayaram, Shyamnath Gollakota, Ira Kemelmacher, Shwetak Patel, and Steven M. Seitz.“ClearBuds: Wireless Binaural Earbuds for Learning-Based Speech Enhancement”

「何かに集中していて、聞き取れなかった音声」を後から再生できるイヤフォン　京セラが開発
京セラ研究開発本部フューチャーデザインラボの研究チームが人間拡張研究の一環として、何かに集中していて聞き逃した音声を後から教えてくれるヒアラブルデバイスを開発した。
一度に複数の楽器を個別録音できる次世代マイク　米カーネギーメロン大が開発
米カーネギーメロン大学は、同時に演奏するそれぞれの楽器を一度に個別収録できるマイクシステムを開発した。理論上はオーケストラの演奏でも、各楽器を全て別々に録音できる。
「OK Google」「Hey Siri」の微妙な“言い方”を区別し、音声アシスタントの誤認識を軽減　東大などが開発
東京大学大学院情報学環の暦本研究室とソニーコンピュータサイエンス研究所（CSL）の研究チームは、「OK Google」や「Hey Siri」のような音声アシスタントを起動させる音声コマンドの誤認識を軽減する学習ベースの分類モデルを開発した。
紙のようにぺらぺらなスピーカー、どんな壁にも貼り付け可能　米MITが開発
米Massachusetts Institute of Technology（MIT）の研究チームは、紙のように薄い薄膜圧電スピーカーを開発した。従来のスピーカーよりも少ないエネルギーでゆがみの少ない音を発生させることができる。
Bluetoothから個別のスマートフォンを識別し追跡するサイバー攻撃　米国チームが論文発表
米University of California, San Diegoの研究チームは、Bluetoothの脆弱性を突いて、スマートフォンを識別し追跡できることを実証した論文を発表した。