Stability AI、テキストで作曲できる生成AI「Stable Audio」

» 2023年09月14日 07時37分公開

[ITmedia]

　画像生成AIで知られる英Stability AIは9月13日（現地時間）、音楽とサウンド生成のためのAIモデル「Stable Audio」を発表した。Webアプリとして公開されており、無料で試せるが、本稿執筆現在、アクセスが集中して生成できない場合もある。

Stable Audio

　無料版では、最長45秒のトラックを生成してダウンロードできる。サブスクリプション版の「Professional」は月額11.99ドルで、商用プロジェクト用にダウンロード可能な90秒のトラックを生成できる。さらに応相談の「Enterprise」プランも用意している。

3つのプラン

　作曲するには、例えば「ポストロック、ギター、ドラムキット、ベース、ストリングス、多幸感、高揚感、ムーディー、流れるような、生々しい、壮大な、センチメンタルな、125BPM」などと入力する。以下の動画は、このプロンプトで生成した音楽という（1分31秒ある）。

　このモデルは、音楽ライブラリのAudioSparxの音楽とメタデータを使ってトレーニングされている。「AudioSparxとの提携により、すべての関係者に経済的価値の創造的価値がもたらされる」という。

　Stable Audioは、生成する音声の内容と長さを制御するアーキテクチャ「latent diffusion」を採用している。

latent diffusionの概念図

画像を説明できるAI「Japanese InstructBLIP Alpha」　Stability AI Japanが公開
英Stability AIの日本法人であるStability AI Japanは、画像を入力すると、その説明文を生成できるAIモデル「Japanese InstructBLIP Alpha」を公開した。
Stability AI Japan、日本語言語モデル「Japanese StableLM Alpha」公開　他社上回る性能、商用利用も可能
英Stability AIの日本法人であるStability AI Japanは、日本語向け大規模言語モデル（LLM）「Japanese StableLM Base Alpha 7B」を公開した。パラメータは70億。ライセンスはApache License 2.0で、商用利用可能だ。
Stability AI、スケッチを高度な画像に変換する「Stable Doodle」無償公開
画像生成AI「Stable Diffusion」を手掛けるStability AIは、ラフなスケッチを高度な画像に変換する新ツール「Stable Doodle」を公開した。Webおよびモバイルアプリで利用可能だ。
チャットAI「StableLM」発表　オープンソースモデルで商用可　「Stable Diffusion」開発元から
英Stability AIが、オープンソースの大規模言語モデル「StableLM」を発表した。α版として30億と70億パラメータの2モデルを公開。今後150億パラメータから650億パラメータのモデルも公開予定としている。商用や研究目的で自由に利用できる。
チャットAI「Stable Chat（日本語版）」　画像AI「Stable Diffusion」開発元が着手
英Stability AIの日本法人が、日本語特化の汎用言語AI「Stable Chat（日本語版）」を開発すると発表した。要素技術や学習データの詳細、公開時期などは未公開。