Meta、音声生成AIモデル「Voicebox」発表　ノイズ除去や言い間違い修正、多言語会話など多機能

Metaは、新たな音声生成AIモデル「Voicebox」を発表した。従来のTTSの20倍の速度で音声を生成するとしている。ノイズ除去や言い間違いの修正、英語のスピーチを声はそのままフランス語に変換するなどが可能だ。

[ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　米Metaは6月16日（現地時間）、新たな音声生成AIモデル「Voicebox」を開発したと発表した。音声の編集、サンプリング、スタイルの設定などを行える。

　音声とテキストを入力することで、以下のような音声を出力できる。

入力した声で入力したテキストを読み上げる音声クリップを作成する
録音した音声から犬の鳴き声やブザー音などのノイズを除去する
録音した音声の言い間違いを修正する
1つの言語のスピーチを同じ声のまま別の言語に変換する（英語の音声を仏語に、など）
1つのテキストを多様な声で読み上げる

アプリケーションの概要

　Metaは、Voiceboxで将来的にはメタバース内のバーチャルアシスタントやNPC（ノンプレイヤーキャラクター）が自然な声で話せるようになるとしている。また、自分の声のまま（本来は話せない）外国語で会話したり、映画の吹き替えも声優ではなく本人の声で行えるようになるという。

　Voiceboxは、「非自己回帰フローマッチングモデル」に基づく音声生成モデル。大規模データを使ってテキストによる音声入力タスクの解決方法を学習することで、コンテキスト内学習を通じて音声タスク全体で単一目的のAIモデルよりも優れたパフォーマンスを発揮するとMetaは説明する。

　トレーニングには、英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語によるパブリックドメインのオーディオブックの音声とそのトランスクリプト、5万時間分を使った。

非自己回帰フローマッチングモデル

　Metaは、非自己回帰フローマッチングモデルは、「最先端の自己回帰モデルのTTSより最大20倍の速度で音声を生成する」としている。例として、米Microsoftの「VALL-E」を挙げた。

　Metaは論文やサンプル集は公開したが、アプリやソースコードは公開していない。「他の強力な新しいAIイノベーションと同様、このテクノロジーが誤用や意図しない危害をもたらす可能性があることを認識している」からだ。「AIの最先端を前進させるために研究を共有することが重要であると信じているが、オープンさと責任の間の適切なバランスをとることも必要」としている。

　TTSの悪用は既に問題になっている。最近ではドレイクとザ・ウィークエンドの声を無断で使った生成型AI楽曲がSpotifyで公開され、話題になった。

Meta、音声生成AIモデル「Voicebox」発表　ノイズ除去や言い間違い修正、多言語会話など多機能

関連記事

関連リンク

Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能

関連記事

関連リンク

Meta、音声生成AIモデル「Voicebox」発表　ノイズ除去や言い間違い修正、多言語会話など多機能