Meta、テキストや旋律から音楽を生成するAI「MusicGen」をオープンソース化　Hugging Faceでお試し可能

Metaは、音楽生成モデル「MusicGen」をオープンソースで公開した。「ドライブ向きな80年代ポップス風でテンポは120bpm」などというプロンプトで音楽を生成できる。Hugging Faceで試せる。

[ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　米Metaは6月9日（現地時間）、音楽生成LMの「MusicGen」を発表した。ディープラーニングによる音声処理と生成のためのライブラリ「Audiocraft」の一部として、GitHubでオープンソース化した。商用利用も可能だ。

　曲のイメージをテキストプロンプトで入力することで音楽を生成できる。オプションで、mp3形式のメロディデータを追加することも可能だ。

（Hugging Faceのデモより）

　MusicGenは、米Googleが2017年に発表した深層学習モデル「Transformer」をベースにした音楽生成モデル。Googleが1月に発表した「MusicLM」のような従来の類似モデルとは異なり、自己教師型でセマンティック表現が不要だ。

　MusicGenのトレーニングには、1万件の高品質な音楽トラックの内部データセットと、ShutterStockとPond5の音楽データを利用した。2万時間分のライセンス音楽を使ったとしている。

　Audiocraftのインストールには、少なくとも16GBのメモリを備えるGPU、Python 3.9、PyTorch 2.0.0が必要。

　デモがHuggingFace Spaceで公開されており、例えば「重厚なドラムとシンセパッドをバックに据えた、80年代のドライブ向けポップソング。テンポは130bpmで」としてバッハのトッカータとフーガの最初のフレーズのmp3を添えて生成ボタンをクリックすると、約2分でそれらしい音楽が生成される。

　論文（PDF）によると、3サイズ（3億、15億、33億）のパラメータのモデルでテストしたところ、当然大きなモデルの方が高品質なオーディが生成できたが、人間は15億パラメータによる楽曲を最もよく評価したという。

Meta、テキストや旋律から音楽を生成するAI「MusicGen」をオープンソース化　Hugging Faceでお試し可能

関連記事

関連リンク

Meta、テキストや旋律から音楽を生成するAI「MusicGen」をオープンソース化 Hugging Faceでお試し可能

関連記事

関連リンク

Meta、テキストや旋律から音楽を生成するAI「MusicGen」をオープンソース化　Hugging Faceでお試し可能