特定の楽器を抜き出すといった従来の音分離とは異なり、例えば「犬の鳴き声と女性の話し声（だけを抜き出して）」などの細かい指示や、「足音の擦れる音がし、その後ドアが軋み、成人男性が話し、またドアが軋み、音を立ててドアが閉まる（一連の音を抜き出して）」のような具体的で複雑な指示まで、幅広い音の分離を可能にする。

AudioSepによって得られた分離結果の可視化

　「Language-queried Audio Source Separation」（LASS）とは、クエリベースで音を分離する手法である。LASSによれば、ユーザーは自然言語の指示を通して、特定の音源を抽出できる。

　LASSシステムの学習は困難である。その主な理由は、自然言語の表現が複雑で多様であることにある。多様な表現や言い回しを理解し、それに基づいて音を分離する能力が求められる。これまでのLASSの学習では、音声とそれに対応するテキストがラベル付けされたデータを使用していたが、そのようなデータは限られている。

　そこで、最近の研究では、マルチモーダルのアプローチを用いたLASSの効果的な学習が注目されている。このアプローチは、テキストと画像などの異なる情報を組み合わせる技術をLASSに応用するものである。しかし、特定の音源（例：楽器や一部の音イベント）はうまく分離できても、幅広い音の分離は難しいという課題があった。

　この研究では「AudioSep」という、自然言語のクエリを使用したオープンドメインの音分離の基盤モデルを提案する。AudioSepは大規模な音声データセットで学習され、高い分離性能と優れたゼロショット（新しいクラスやタスクを訓練データから事前に学習していなくても、推論時に何らかの補助情報を与えることで、適切な分類や予測を行うこと）の一般化能力を持つことを示している。

AudioSepのパイプライン

　AudioSepは、テキストエンコーダーと分離モデルという2つの主要な部分で構成。まず、CLIPやCLAPのようなテキストエンコーダーを利用して、自然言語クエリからテキストの埋め込みを生成する。その後、ResUNetモデルを使用して音を分離する。

　LASSに関する包括的な評価基準を確立し、音の分離や音声の強化などの多岐にわたるタスクで評価を実施した。結果として、AudioSepは既存の音声クエリベースの音分離モデルや最先端のLASSモデルを大きく上回る実績を示した。

Source and Image Credits: Liu, Xubo, et al. “Separate Anything You Describe.” arXiv preprint arXiv:2308.05037（2023）.

「舌打ち」で障害物の位置を特定　音の跳ね返りをVR上で可視化、エコロケーションを体験
岐阜大学の研究チームは、舌打ちの反響音で周囲の障害物を把握する能力を体験できるVRシステムを開発した。舌打ちした音が複数のボールとしてバーチャル内で見え、そのボールの跳ね返りを手掛かりに周囲の机や壁を把握する。
「落ち着いて聞いてください」──カップヌードル×メタルギアのパロディーCMが話題　小島監督も反応
「落ち着いて聞いてください」──カップヌードルのXアカウントのWebCMが話題になっている。ゲーム「メタルギアソリッド」シリーズのワンシーンで、ネットミームになっていた場面を題材にした内容。メタルギアの生みの親である小島秀夫さんも反応している。
「HHKB Studio」が、静電容量無接点スイッチを採用しなかったワケ　担当者に聞いた
HHKBといえば、エンジニアにとって必要かつ最小限のキー配列と同じぐらい、東プレ製の静電容量無接点スイッチを採用していることが大きな特徴となっている。新作「HHKB Studio」では、スイッチが変更されたことでSNSでは残念がる声も多く見られたが、なぜPFUは静電容量式ではなくリニアタイプのメカニカルスイッチを採用したのだろうか。
レールガンの洋上射撃試験　装備庁・海自「世界初」　動画も公開　一体どんな武器？
防衛装備庁と海上自衛隊は、電磁気力で物体を撃ちだす装置「レールガン」の洋上射撃試験を実施したと発表した。
新鉱物「桐生石」と「群馬石」を発見　ネット上の地質図への“違和感”がきっかけに
東京大学物性研究所と名古屋大学大学院工学研究科は、群馬県桐生市の山中で2種類の新鉱物「桐生石」（学名：Kiryuite）」と「群馬石」（Gunmaite）を発見したと発表した。