ITmedia NEWS > 製品動向 >
ITmedia AI+ AI活用のいまが分かる

OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る

» 2024年03月30日 07時47分 公開
[ITmedia]

 米OpenAIは3月29日(現地時間)、人の声を再現できる生成AIモデル「Voice Engine」を発表した。テキスト入力と15秒分の音声サンプルで、元の話者によく似た自然な音声を生成できる。感情的なリアルな音声で、母国語以外の言語も話せる。

 voice

 2022年から開発していたこのモデルは、既に同社の「Text-to-Speech API」や「ChatGPT」アプリの音声チャット機能ChatGPTのテキスト読み上げ機能「Read Aloud」などで採用されている。

 OpenAIは、こうした合成音声が悪用される可能性を認めており、広範囲にリリースをするかどうかを検討するために、慎重にテストを行っているという。

 スウェーデンSpotifyは昨年9月、このモデルを採用した新機能「Voice Translation」を発表した。これはPodcastをホスト自身の声で複数言語に吹き替えるものだ。

 OpenAIは2023年末から一部のパートナーとVoice Engineの非公開のテストを行ってきた。例えば、非営利の医療研究所で、病気で発話が不自由になってしまった個人の声の30秒分の音声データから、その人の流暢な発話を復元することに成功した。公式ブログで、サンプルにした元の音声、発症前のその人の音声、合成音声とされているものを聴くことができる。

 Voice Engineのテストに参加しているパートナーは、なりすましなどを禁止するポリシーに同意している。

 OpenAIは、音声合成には「重大なリスクがあり、特に選挙の年には最優先事項であることを認識している。われわれは、政府やメディアなど米国および国際的なパートナーと連携してフィードバックを取り入れている」と語った。

 広くリリースするためには、音声認証システムの廃止や、個人の声を保護するポリシーの確立、AIの機能と限界についての一般の理解促進などが必要だとしている。

 OpenAIは動画生成AI「Sora」を発表した際も、成果は披露したが、一般公開はしていない。

Copyright © ITmedia, Inc. All Rights Reserved.