Meta、テキストプロンプトで作曲できる生成AIスイート「AudioCraft」をオープンソース化

Metaは、テキストプロンプトで音楽や効果音を生成できるAIスイート「AudioCraft」をオープンソース化した。「MusicGen」「AudioGen」「EnCodec」の3つのAIモデルで構成されている。

[ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　米Metaは8月2日（現地時間）、テキストプロンプトから音楽や音声を生成する生成AIツールスイート「AudioCraft」をオープンソース化したと発表した。トレーニングに使うデータの多様化もオープンソース化のねらいの1つだ。

　AudioCraftは、エフェクトやサウンドスケープを生成する「AudioGen」、テキストからメロディーを生成する「MusicGen」、ニューラルネットワークベースのオーディオ圧縮コーデックの「EnCodec」の3つのコンポーネントで構成されている。MusicGenは単体で6月にオープンソース化されている。EnCodecは昨年11月に公開済みだが、最近の改良でより高品質な音楽生成が可能になったという。

　MusicGenは、Metaが所有する音楽と、「この目的のために特別にライセンスを取得した音楽」をあわせて2万時間分のデータでトレーニングしたとしている。

　Metaは公式ブログでAudioGenのサンプルを2件、MusicGenのサンプルを2件公開している。例えば「風が吹く中で口笛を吹く」というプロンプトによる効果音や「トロピカルなパーカッション入りで、キャッチーなメロディーと陽気なリズムが特徴の、ビーチにぴったりのポップダンストラック」というプロンプトの音楽などだ。

　AudioCraftのインストールには、少なくとも16GBのメモリを備えるGPU、Python 3.9、PyTorch 2.0.0が必要。

　Metaは「AudioCraftをミュージシャンやサウンドデザイナーがインスピレーションを提供し、人々が新しい方法で楽曲を作り、反復するのに役立つツールだと考えている。人々がこれを使って何を生成するのか楽しみだ」としている。

Meta、テキストプロンプトで作曲できる生成AIスイート「AudioCraft」をオープンソース化

関連記事

関連リンク