このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
英サリー大学とByteDanceに所属する研究者らが発表した論文「Separate Anything You Describe」は、自然言語で指示された通りに音を分離するモデルを提案する研究である。
特定の楽器を抜き出すといった従来の音分離とは異なり、例えば「犬の鳴き声と女性の話し声(だけを抜き出して)」などの細かい指示や、「足音の擦れる音がし、その後ドアが軋み、成人男性が話し、またドアが軋み、音を立ててドアが閉まる(一連の音を抜き出して)」のような具体的で複雑な指示まで、幅広い音の分離を可能にする。
「Language-queried Audio Source Separation」(LASS)とは、クエリベースで音を分離する手法である。LASSによれば、ユーザーは自然言語の指示を通して、特定の音源を抽出できる。
LASSシステムの学習は困難である。その主な理由は、自然言語の表現が複雑で多様であることにある。多様な表現や言い回しを理解し、それに基づいて音を分離する能力が求められる。これまでのLASSの学習では、音声とそれに対応するテキストがラベル付けされたデータを使用していたが、そのようなデータは限られている。
そこで、最近の研究では、マルチモーダルのアプローチを用いたLASSの効果的な学習が注目されている。このアプローチは、テキストと画像などの異なる情報を組み合わせる技術をLASSに応用するものである。しかし、特定の音源(例:楽器や一部の音イベント)はうまく分離できても、幅広い音の分離は難しいという課題があった。
この研究では「AudioSep」という、自然言語のクエリを使用したオープンドメインの音分離の基盤モデルを提案する。AudioSepは大規模な音声データセットで学習され、高い分離性能と優れたゼロショット(新しいクラスやタスクを訓練データから事前に学習していなくても、推論時に何らかの補助情報を与えることで、適切な分類や予測を行うこと)の一般化能力を持つことを示している。
AudioSepは、テキストエンコーダーと分離モデルという2つの主要な部分で構成。まず、CLIPやCLAPのようなテキストエンコーダーを利用して、自然言語クエリからテキストの埋め込みを生成する。その後、ResUNetモデルを使用して音を分離する。
LASSに関する包括的な評価基準を確立し、音の分離や音声の強化などの多岐にわたるタスクで評価を実施した。結果として、AudioSepは既存の音声クエリベースの音分離モデルや最先端のLASSモデルを大きく上回る実績を示した。
Source and Image Credits: Liu, Xubo, et al. “Separate Anything You Describe.” arXiv preprint arXiv:2308.05037(2023).
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR