ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

歌声から伴奏を生成するAI「SingSong」 Googleが技術開発Innovative Tech

» 2023年02月13日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 Google Researchに所属する研究者らが発表した論文「SingSong: Generating musical accompaniments from singing」は、歌声からその歌に適した伴奏を生成する機械学習モデルを提案した研究報告である。入力した歌声に合わせてインストゥルメンタル音楽(インスト)を生成し、す入力の歌声と生成した楽器を合成した新たな音源を出力る。

SingSongの概要図

 SingSongは、音源分離とオーディオ生成の2つのモデルから構成される。まず既存の音源分離アルゴリズムを用い、大規模で多様な音楽コーパスをボーカルと楽器の音源のペアに分離し、大規模な学習データを作成する。

 次に、音声プロンプトを入力に残りの音楽を生成するGoogleが開発したモデル「AudioLM」を改良したモデルに対し、教師あり方式で音源分離データを学習させる。

 これによって学習したモデルは、ボーカルの音声を受け取ると、そのボーカルに合うインストゥルメンタル曲を出力し、入力音声と生成したインストゥルメンタル曲をミックスした音楽を出力する。

 実験では、複数の参加者にSingSongで出力した音源とベースラインで出力した音源、グランドトゥルース音源などを聞いてもらい、どのインストゥルメンタル曲がボーカルとより音楽的に適合しているように聞こえるかを答えてもらった。

 その結果、ベースラインよりもSingSongのインストゥルメンタル曲の方が66%で好まれた。グランドトゥルース音源と比べた結果は、57%でSingSongのインストゥルメンタル曲が好まれた。

 実験では10秒の音楽クリップを生成したが、長いサンプルで30秒の音楽クリップの合成も出力している。またプロのボーカル音源から合成したサンプルではなく、素人が歌った声を家庭用録音機で収録した音源から合成したサンプルも出力している。これらの音楽サンプルはプロジェクトページにて公開されており聞くことができる。

評価実験で使用した多様なケースのサンプル音源

Source and Image Credits: Donahue, Chris, Antoine Caillon, Adam Roberts, Ethan Manilow, Philippe Esling, Andrea Agostinelli, Mauro Verzetti, Ian Simon, Olivier Pietquin, Neil Zeghidour and Jesse Engel. “SingSong: Generating musical accompaniments from singing.”(2023).



Copyright © ITmedia, Inc. All Rights Reserved.