OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る

OpenAIは、人の声を再現する生成AIモデル「Voice Engine」を発表した。動画生成の「Sora」同様「重大なリスク」があることを認識しており、広範囲に提供は（当面は）しない。

[ITmedia] PC用表示関連情報

LINE

Hatena

　米OpenAIは3月29日（現地時間）、人の声を再現できる生成AIモデル「Voice Engine」を発表した。テキスト入力と15秒分の音声サンプルで、元の話者によく似た自然な音声を生成できる。感情的なリアルな音声で、母国語以外の言語も話せる。

　2022年から開発していたこのモデルは、既に同社の「Text-to-Speech API」や「ChatGPT」アプリの音声チャット機能、ChatGPTのテキスト読み上げ機能「Read Aloud」などで採用されている。

　OpenAIは、こうした合成音声が悪用される可能性を認めており、広範囲にリリースをするかどうかを検討するために、慎重にテストを行っているという。

　スウェーデンSpotifyは昨年9月、このモデルを採用した新機能「Voice Translation」を発表した。これはPodcastをホスト自身の声で複数言語に吹き替えるものだ。

　OpenAIは2023年末から一部のパートナーとVoice Engineの非公開のテストを行ってきた。例えば、非営利の医療研究所で、病気で発話が不自由になってしまった個人の声の30秒分の音声データから、その人の流暢な発話を復元することに成功した。公式ブログで、サンプルにした元の音声、発症前のその人の音声、合成音声とされているものを聴くことができる。

　Voice Engineのテストに参加しているパートナーは、なりすましなどを禁止するポリシーに同意している。

　OpenAIは、音声合成には「重大なリスクがあり、特に選挙の年には最優先事項であることを認識している。われわれは、政府やメディアなど米国および国際的なパートナーと連携してフィードバックを取り入れている」と語った。

　広くリリースするためには、音声認証システムの廃止や、個人の声を保護するポリシーの確立、AIの機能と限界についての一般の理解促進などが必要だとしている。

　OpenAIは動画生成AI「Sora」を発表した際も、成果は披露したが、一般公開はしていない。

OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る

関連記事

関連リンク