米Metaは8月2日(現地時間)、テキストプロンプトから音楽や音声を生成する生成AIツールスイート「AudioCraft」をオープンソース化したと発表した。トレーニングに使うデータの多様化もオープンソース化のねらいの1つだ。
AudioCraftは、エフェクトやサウンドスケープを生成する「AudioGen」、テキストからメロディーを生成する「MusicGen」、ニューラルネットワークベースのオーディオ圧縮コーデックの「EnCodec」の3つのコンポーネントで構成されている。MusicGenは単体で6月にオープンソース化されている。EnCodecは昨年11月に公開済みだが、最近の改良でより高品質な音楽生成が可能になったという。
MusicGenは、Metaが所有する音楽と、「この目的のために特別にライセンスを取得した音楽」をあわせて2万時間分のデータでトレーニングしたとしている。
Metaは公式ブログでAudioGenのサンプルを2件、MusicGenのサンプルを2件公開している。例えば「風が吹く中で口笛を吹く」というプロンプトによる効果音や「トロピカルなパーカッション入りで、キャッチーなメロディーと陽気なリズムが特徴の、ビーチにぴったりのポップダンストラック」というプロンプトの音楽などだ。
AudioCraftのインストールには、少なくとも16GBのメモリを備えるGPU、Python 3.9、PyTorch 2.0.0が必要。
Metaは「AudioCraftをミュージシャンやサウンドデザイナーがインスピレーションを提供し、人々が新しい方法で楽曲を作り、反復するのに役立つツールだと考えている。人々がこれを使って何を生成するのか楽しみだ」としている。
無料で商用可、ChatGPT(3.5)に匹敵する生成AI「Llama 2」 Metaが発表、Microsoftと優先連携
Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能
Meta、テキストや旋律から音楽を生成するAI「MusicGen」をオープンソース化 Hugging Faceでお試し可能
Google、テキストから音楽を生成する「MusicLM」発表 リリースはせず
Microsoft、3秒分の音声だけでその人の声を真似るAI「VALL-E」のサンプル公開
動画も音楽もゲームも 広がるAIエンターテインメントの可能性Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR