OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る
OpenAIは、人の声を再現する生成AIモデル「Voice Engine」を発表した。動画生成の「Sora」同様「重大なリスク」があることを認識しており、広範囲に提供は(当面は)しない。
米OpenAIは3月29日(現地時間)、人の声を再現できる生成AIモデル「Voice Engine」を発表した。テキスト入力と15秒分の音声サンプルで、元の話者によく似た自然な音声を生成できる。感情的なリアルな音声で、母国語以外の言語も話せる。
2022年から開発していたこのモデルは、既に同社の「Text-to-Speech API」や「ChatGPT」アプリの音声チャット機能、ChatGPTのテキスト読み上げ機能「Read Aloud」などで採用されている。
OpenAIは、こうした合成音声が悪用される可能性を認めており、広範囲にリリースをするかどうかを検討するために、慎重にテストを行っているという。
スウェーデンSpotifyは昨年9月、このモデルを採用した新機能「Voice Translation」を発表した。これはPodcastをホスト自身の声で複数言語に吹き替えるものだ。
OpenAIは2023年末から一部のパートナーとVoice Engineの非公開のテストを行ってきた。例えば、非営利の医療研究所で、病気で発話が不自由になってしまった個人の声の30秒分の音声データから、その人の流暢な発話を復元することに成功した。公式ブログで、サンプルにした元の音声、発症前のその人の音声、合成音声とされているものを聴くことができる。
Voice Engineのテストに参加しているパートナーは、なりすましなどを禁止するポリシーに同意している。
OpenAIは、音声合成には「重大なリスクがあり、特に選挙の年には最優先事項であることを認識している。われわれは、政府やメディアなど米国および国際的なパートナーと連携してフィードバックを取り入れている」と語った。
広くリリースするためには、音声認証システムの廃止や、個人の声を保護するポリシーの確立、AIの機能と限界についての一般の理解促進などが必要だとしている。
OpenAIは動画生成AI「Sora」を発表した際も、成果は披露したが、一般公開はしていない。
関連記事
- ChatGPTに音声読み上げ機能追加 モバイルでも
OpenAIは、ChatGPTに音声読み上げ機能を追加したと発表した。テキストによる回答を長押しすると表示されるメニューから「Read aloud」を選択すると回答を適切な言語で読み上げる。 - OpenAIの「ChatGPT」アプリ、音声機能が無料ユーザーでも利用可能に(サーバトラブル中→復旧済み)
OpenAIはChatGPTアプリの音声機能を無料ユーザーにも解放したと発表した。この発表を退社したグレッグ・ブロックマン元社長もリポストした。本稿執筆現在、サービスはダウンしている。 - SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に
Spotifyは、OpenAIの生成AI音声技術を採用し、Podcastのホストの声のまま他の言語に吹き替える「Voice Translation」を発表した。まずは英語からスペイン語に吹き替えた番組を公開した。 - iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能
OpenAIはiOSアプリ版AIチャットbot「OpenAI ChatGPT」を発表した。まずは米国のApp Storeで公開した。Android版も「間もなく」公開する予定。 - 「本人の声とそっくりな合成音声」の悪用に対して法的権利はあるか? NTT社会情報研究所が調査
NTT社会情報研究所と慶應義塾大学の研究者らは、音声合成技術によって生成された、本人の声と酷似した合成音声が利用される場面において主張しうる権利について、著作権、パブリシティ権、個人情報の観点からの解釈を探求した研究報告を発表した。 - AIブームで声で人をだます犯罪も増加か 闇サイトでは音声クローンサービス「VCaaS」が台頭
AIを使って音声を合成する音声クローン技術が悪用される危険が強まっている。闇サイトでは、そうした悪用に手を貸す「VCaaS」と呼ばれるサービスも台頭しているという。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.