ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

囲いなしでその場所だけ“防音化” 特定の人物の声だけを“消す・聞く”ができる小型音響ロボット群Innovative Tech

» 2023年10月03日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米ワシントン大学と米Microsoftに所属する研究者らが発表した論文「Creating speech zones with self-distributing acoustic swarms」は、部屋内で話す人々の位置を特定し、その音声を分離するための小型の移動式音響ロボット群を提案した研究報告である。

 この技術は、多くの人が一度に話している部屋において、部屋の一部で音を消す領域「ミュートゾーン」や、周囲を気にせず対話できる領域「スピーチゾーン」を作り出すことに活用できる。また多数の人が話している中で、物理的に離れた位置にいても特定の人々だけが対話できるようにする方法としても利用可能だ。

(A)手前にスピーチゾーン、奥にミュートゾーンを形成、(B-G)音響ロボットの詳細

 この音響ロボットは、Bluetooth Low Energy(BLE)モジュール、マイクロフォン、スピーカー、モーター、慣性計測ユニット(IMU)、車輪、バッテリーなどで構成。ロボットの寸法は、3.0(幅)×2.6(奥行)、3.0(高さ)cm。1台だけでなく、複数台(ここでは7台)を同時に活用できる。

 ロボットは移動可能で、テーブルなどの平面上を自由に動ける。特に、カメラや外部のセンサーなどの追加設備を必要とせず、音響ロボット同士が無線通信で協調しながら自動的に適切な場所へ移動する。

基地内にとまる7台の音響ロボット

 具体的には、ロボット間の距離を測定するために、62.5kHzでサンプリングされた音響信号(通常「チャープ」と呼ばれる短い信号)を送信し、これらの1次元の距離データを基に、2次元の位置特定アルゴリズムを適用して各ロボットの座標を推定する。

 また、これらの音響ロボットは、表面から落下しないよう工夫されており、表面上のオブジェクトと衝突した場合にも復帰できるよう設計されている。電力が低下した際には、自動でプラスチック製の基地へ戻り、そこで充電を行う。

音響ロボット群は、基地から飛び出してテーブル上に自動で分散配置する

 これらの音響ロボットは、テーブル上で分散配置され、その場で話している人々の位置と音声を分離する機能を持つ。具体的には、最初に話者が存在するかどうかを確認し、次に3次元空間での話者の位置特定と音声分離を行う。

 まず、テーブル上に配置された複数の音響ロボットが同時に録音を開始する。それぞれのマイクロフォンが拾った音声データを比較し、同じ音(話者の声)が複数のマイクロフォンで録音されている場合は、その音声を抽出する。各マイクロフォンからのデータに「Time Difference of Arrival」(TDoA)を適用し、話者が存在すると推測される位置に焦点を当てる。

 次に、3次元空間での話者の位置特定と音声分離に進む。最初に「Steered-Response Power Phase Transform」(SRP-PHAT)アルゴリズムを用いて、低コストで大まかな話者の位置を特定する。その後、深層学習ベースの音声分離モデルを活用して高度な計算を行い、会話音や背景雑音から特定の話者の音声を効率的に分離する。これにより、より正確な話者の位置と明瞭な音声が得られる。

 さらに、このシステムはリアルタイムで動作するため、話者が位置を変えてもそれを追跡できる。

 この音響ロボット群の性能は、現実世界の未知の反響環境でどれだけ効果的であるかを評価した。具体的には、3〜5人の話者が同時に存在する状況で、各話者の位置と音声をどれだけ正確に特定および分離できるを検証。結果として、ほとんどのケースで音声源を50cm以内で正確に特定できた。

 このように、音響ロボット群は話者の位置を正確に特定するだけでなく、その位置から発せられる音声も効果的に分離できる。この技術は特に、多数の人々が同時に話している環境で非常に役立つ。

 例えば、混雑したカフェや人が多いパーティーで複数の会話が重なっている場合、特定の人物とだけ明瞭に対話するといったことができる。また、カフェの一部のエリアを防音状態にして、集中できる環境を作り出すことも可能だ。

Source and Image Credits: Itani, M., Chen, T., Yoshioka, T. et al. Creating speech zones with self-distributing acoustic swarms. Nat Commun 14, 5684(2023). https://doi.org/10.1038/s41467-023-40869-8



Copyright © ITmedia, Inc. All Rights Reserved.