囲いなしでその場所だけ“防音化” 特定の人物の声だけを“消す・聞く”ができる小型音響ロボット群:Innovative Tech
米ワシントン大学と米Microsoftに所属する研究者らは、部屋内で話す人々の位置を特定し、その音声を分離するための小型の移動式音響ロボット群を提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
米ワシントン大学と米Microsoftに所属する研究者らが発表した論文「Creating speech zones with self-distributing acoustic swarms」は、部屋内で話す人々の位置を特定し、その音声を分離するための小型の移動式音響ロボット群を提案した研究報告である。
この技術は、多くの人が一度に話している部屋において、部屋の一部で音を消す領域「ミュートゾーン」や、周囲を気にせず対話できる領域「スピーチゾーン」を作り出すことに活用できる。また多数の人が話している中で、物理的に離れた位置にいても特定の人々だけが対話できるようにする方法としても利用可能だ。
この音響ロボットは、Bluetooth Low Energy(BLE)モジュール、マイクロフォン、スピーカー、モーター、慣性計測ユニット(IMU)、車輪、バッテリーなどで構成。ロボットの寸法は、3.0(幅)×2.6(奥行)、3.0(高さ)cm。1台だけでなく、複数台(ここでは7台)を同時に活用できる。
ロボットは移動可能で、テーブルなどの平面上を自由に動ける。特に、カメラや外部のセンサーなどの追加設備を必要とせず、音響ロボット同士が無線通信で協調しながら自動的に適切な場所へ移動する。
具体的には、ロボット間の距離を測定するために、62.5kHzでサンプリングされた音響信号(通常「チャープ」と呼ばれる短い信号)を送信し、これらの1次元の距離データを基に、2次元の位置特定アルゴリズムを適用して各ロボットの座標を推定する。
また、これらの音響ロボットは、表面から落下しないよう工夫されており、表面上のオブジェクトと衝突した場合にも復帰できるよう設計されている。電力が低下した際には、自動でプラスチック製の基地へ戻り、そこで充電を行う。
これらの音響ロボットは、テーブル上で分散配置され、その場で話している人々の位置と音声を分離する機能を持つ。具体的には、最初に話者が存在するかどうかを確認し、次に3次元空間での話者の位置特定と音声分離を行う。
まず、テーブル上に配置された複数の音響ロボットが同時に録音を開始する。それぞれのマイクロフォンが拾った音声データを比較し、同じ音(話者の声)が複数のマイクロフォンで録音されている場合は、その音声を抽出する。各マイクロフォンからのデータに「Time Difference of Arrival」(TDoA)を適用し、話者が存在すると推測される位置に焦点を当てる。
次に、3次元空間での話者の位置特定と音声分離に進む。最初に「Steered-Response Power Phase Transform」(SRP-PHAT)アルゴリズムを用いて、低コストで大まかな話者の位置を特定する。その後、深層学習ベースの音声分離モデルを活用して高度な計算を行い、会話音や背景雑音から特定の話者の音声を効率的に分離する。これにより、より正確な話者の位置と明瞭な音声が得られる。
さらに、このシステムはリアルタイムで動作するため、話者が位置を変えてもそれを追跡できる。
この音響ロボット群の性能は、現実世界の未知の反響環境でどれだけ効果的であるかを評価した。具体的には、3〜5人の話者が同時に存在する状況で、各話者の位置と音声をどれだけ正確に特定および分離できるを検証。結果として、ほとんどのケースで音声源を50cm以内で正確に特定できた。
このように、音響ロボット群は話者の位置を正確に特定するだけでなく、その位置から発せられる音声も効果的に分離できる。この技術は特に、多数の人々が同時に話している環境で非常に役立つ。
例えば、混雑したカフェや人が多いパーティーで複数の会話が重なっている場合、特定の人物とだけ明瞭に対話するといったことができる。また、カフェの一部のエリアを防音状態にして、集中できる環境を作り出すことも可能だ。
Source and Image Credits: Itani, M., Chen, T., Yoshioka, T. et al. Creating speech zones with self-distributing acoustic swarms. Nat Commun 14, 5684(2023). https://doi.org/10.1038/s41467-023-40869-8
関連記事
- 人が乗って操縦する「パトレイバー」開発へ ロボットベンチャーが発表
ロボットベンチャーのMOVeLOTは30日、アニメ「機動警察パトレイバー EZY(イジー)」に登場するロボット「イングラム」の開発を始めると発表した。人が搭乗し、操縦できる機体になるという。 - “メカ平野レミ” と平野レミが対面 ChatGPT搭載ロボ登場 本人そっくりのAI音声で会話
森永乳業が、料理研究家の平野レミさんを模したロボット「AI平野レミロイド」を公開した。新製品のプロモーションに加え「試食会などの販促や営業・商談の場でロボットが活躍する可能性を見越し、プロトタイプとして開発した」という。 - ゲーマー向け簡易防音室、組み立て式で10万8900円から
組み立て式の簡易防音室を手掛けるCoolish Musicが、ゲーマー向け製品「OTODASU II G」を発売した。従来品では白だった本体カラーを全て真っ黒に。ゲーミングデバイスの光が引き立つようにした。 - 隣の防音部屋をミリ波で盗聴、瞬時にテキスト化する技術 中国の研究者らが開発
香港大学や清華大学に所属する研究者らは、ミリ波(mmWave)信号から音声を認識するストリーミング自動音声認識(ASR)システムを提案した研究報告を発表した。 - 隣の部屋をミリ波で盗聴 防音の壁でも喉元の皮膚振動を捉え音声復元
中国の浙江大学と米State University of New York at Buffaloによる研究チームは、ミリ波(mmWave)を用い、防音環境で守られている部屋内を外部から盗聴するシステムを開発した。被害者が発話した際の喉元付近の皮膚振動をミリ波で捉え、音声を復元する。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.