米Googleの研究部門Google Researchは1月26日(現地時間)、テキストから音楽を生成するAI「MusicLM」を発表した。成果物のサンプルは公開しているが、著作権侵害などの恐れがあるため、現時点ではモデルをリリースする予定はないとしている。
Googleは「MusicLMは、条件付き音楽生成プロセスを階層的なシーケンスからシーケンスへのモデリングタスクとしてキャストし、数分間にわたって一貫性を保つ24kHzの音楽を生成する」AIモデルと説明する。
テキストから音楽を生成するAIモデルは既に幾つか発表されているが、MusicLMはトレーニングデータとして、テキストと高品質な音楽のペアのデータセットであるMusicCapsを作成してこれを使ったことで、優れたものになっているという。トレーニングデータは28万時間分に上る。
MusicCapsは、5521の音楽サンプルにミュージシャンが英語のテキストでキャプションを付けたもの。こちらは一般公開されている。
公開されているサンプルは、例えば「スローテンポでベースとドラムがメインのレゲエの歌。サステインギター。ボンゴ。ボーカルはゆったりとリラックスした感じで表現力豊か」というテキストと、それに対応する30秒の楽曲だ。この曲には歌詞付きのボーカルが含まれるが、歌詞は意味不明だ。
上記のサンプルのように楽器などを具体的に指定するものの他、順番に指定したキャプション通りに曲調を変えるものもある。例えば、「瞑想」→「起床」→「走る」→「全力」というテキストから生成された1分の曲は、そう聞こえなくもない。
また、著名な絵画とそのレビューテキストに基づく楽曲のサンプルもある。ムンクの「叫び」やダリの「記憶の固執」などだが、これらは評価が分かれそうだ。
Googleはこのモデルのリスクとして、トレーニングデータの偏りを反映しているので、文化的な偏りが生じる恐れがあることや、オリジナル楽曲の著作権侵害を挙げている。生成した楽曲の約1%に、オリジナル楽曲が「正確に記憶」されていることが分かったとしている。「これらのリスクに対処するための今後の作業の必要性を強く主張」し、現時点ではモデルをリリースする予定はないという。
【訂正:2023年1月28日午後5時50分 当初「MusicML」としていましたが、「MusicLM」の誤りでした。お詫びして訂正します。】
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR