Microsoft、3秒分の音声だけでその人の声を真似るAI「VALL-E」のサンプル公開

Microsoftは、人間の話す声の3秒分のデータを与えると、その人の声でテキストを読み上げられるようになるAI「VALL-E」を発表した。GitHubでサンプル音声を試聴できる。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米Microsoftの研究者らは1月5日（現地時間）、人間が話す声の3秒分のデータを与えると、その人のようにテキストを読み上げられるようになるAI「VALL-E」を発表した。GitHubで公開されたサンプルでは、怒りや眠そうな様子などのトーンも追加できている。

　Microsoftが「ニューラルコーデック言語モデル」と呼ぶVALL-Eは、米Metaが昨年10月に発表した「EnCodec」に基づいて構築された。分析した人間の声をEnCodecで個別の「トークン」に分割し、トレーニングデータを使ってトークンを生成するという。

　VALL-Eの音声合成機能は、やはりMetaが作成した音声ライブラリ「LibriLight」でトレーニングした。このライブラリには7000人以上の人間による6万時間分の英語音声が含まれている。

　VALL-EのWebサイトのサンプルの、「Speaker Prompt」は与えられた3秒間の音声データ、中央の「Ground Truth」は実際に同じ人間が話したフレーズで、「VALL-E」がVALL-Eが生成した同じフレーズだ。これにより、聴き比べができるようになっている。

　この技術をディープフェイク動画と組み合わせると危険なレベルで悪用できそうだ。Microsoftは論文で「VALL-Eは音声によるなりすましなど、潜在的なリスクを伴う可能性がある。そうしたリスクを軽減するために、音声クリップがVALL-Eで合成されたかどうかを識別するモデルを構築することが可能だ。また、モデル開発の際にはMicrosoftのAI原則を順守する」としている。

Microsoft、3秒分の音声だけでその人の声を真似るAI「VALL-E」のサンプル公開

関連記事

関連リンク