Meta、テキストプロンプトで作曲できる生成AIスイート「AudioCraft」をオープンソース化
Metaは、テキストプロンプトで音楽や効果音を生成できるAIスイート「AudioCraft」をオープンソース化した。「MusicGen」「AudioGen」「EnCodec」の3つのAIモデルで構成されている。
米Metaは8月2日(現地時間)、テキストプロンプトから音楽や音声を生成する生成AIツールスイート「AudioCraft」をオープンソース化したと発表した。トレーニングに使うデータの多様化もオープンソース化のねらいの1つだ。
AudioCraftは、エフェクトやサウンドスケープを生成する「AudioGen」、テキストからメロディーを生成する「MusicGen」、ニューラルネットワークベースのオーディオ圧縮コーデックの「EnCodec」の3つのコンポーネントで構成されている。MusicGenは単体で6月にオープンソース化されている。EnCodecは昨年11月に公開済みだが、最近の改良でより高品質な音楽生成が可能になったという。
MusicGenは、Metaが所有する音楽と、「この目的のために特別にライセンスを取得した音楽」をあわせて2万時間分のデータでトレーニングしたとしている。
Metaは公式ブログでAudioGenのサンプルを2件、MusicGenのサンプルを2件公開している。例えば「風が吹く中で口笛を吹く」というプロンプトによる効果音や「トロピカルなパーカッション入りで、キャッチーなメロディーと陽気なリズムが特徴の、ビーチにぴったりのポップダンストラック」というプロンプトの音楽などだ。
AudioCraftのインストールには、少なくとも16GBのメモリを備えるGPU、Python 3.9、PyTorch 2.0.0が必要。
Metaは「AudioCraftをミュージシャンやサウンドデザイナーがインスピレーションを提供し、人々が新しい方法で楽曲を作り、反復するのに役立つツールだと考えている。人々がこれを使って何を生成するのか楽しみだ」としている。
関連記事
- 無料で商用可、ChatGPT(3.5)に匹敵する生成AI「Llama 2」 Metaが発表、Microsoftと優先連携
米Metaは7月18日(現地時間)、大規模言語モデル「Llama 2」を発表した。利用は無料で商用利用も可能としている。最大サイズの70億パラメーターモデルは「ChatGPT(の3月1日版)と互角」(同社)という。 - Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能
Metaは、新たな音声生成AIモデル「Voicebox」を発表した。従来のTTSの20倍の速度で音声を生成するとしている。ノイズ除去や言い間違いの修正、英語のスピーチを声はそのままフランス語に変換するなどが可能だ。 - Meta、テキストや旋律から音楽を生成するAI「MusicGen」をオープンソース化 Hugging Faceでお試し可能
Metaは、音楽生成モデル「MusicGen」をオープンソースで公開した。「ドライブ向きな80年代ポップス風でテンポは120bpm」などというプロンプトで音楽を生成できる。Hugging Faceで試せる。 - Google、テキストから音楽を生成する「MusicLM」発表 リリースはせず
Googleは、テキストから音楽を生成するAIモデル「MusicLM」を発表した。多数のサンプルを聞くことができるが、著作権侵害などの恐れがあるため、現時点では公開はしない。 - Microsoft、3秒分の音声だけでその人の声を真似るAI「VALL-E」のサンプル公開
Microsoftは、人間の話す声の3秒分のデータを与えると、その人の声でテキストを読み上げられるようになるAI「VALL-E」を発表した。GitHubでサンプル音声を試聴できる。 - 動画も音楽もゲームも 広がるAIエンターテインメントの可能性
Stable Deffusionのオープンソース公開以後、画像生成にとどまらず、AIを使ったさまざまなユースケースが登場している。動画制作や音楽制作のみならず、ゲームや新しいタイプの遊びなどへの発展も。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.