ドワンゴ、AIボイスチェンジャー公開　誰の声でも100人の声に変換

» 2020年09月15日 12時32分公開

[谷井将人，ITmedia]

　ドワンゴは9月14日、ディープラーニング技術を活用したボイスチェンジャー「Seiren Voice」をWebサイトで無償公開した。デモページでは、声を録音して変換先の声を選び、変換ボタン押すと自分の声を100人分の声に変換できる。

　録音した音声を加工するのではなく、目標の人物の声に変換するもの。選べるターゲットの数は100種類。変換のリアルタイム性より変換品質を優先しており、変換には数十秒から数分の時間がかかる。

Seiren Voiceでの変換結果

　既存の声質変換システムはリアルタイムに変換するものが多く、品質を重視したものはあまり見かけないとして開発に挑んだという。音声の合成には、スマートスピーカーなどで使われるWaveNetという方式から派生したWaveRNNを採用した。

　ディープラーニングを使った声質変換では、変換前の声と目標とする人物の声をセットで学習する手法がとられることがある。この手法ではボイスチェンジャーを使いたい人があらかじめ複数の文章を読み上げ、機械学習をやり直す必要があり手間が掛かる。

　Seiren Voiceでは、音声から音声に直接変換するのではなく、音声を「音素」「音高」「発音タイミング」に分解し、それらのデータを基に目標とする人物の声を再構築する。事前の録音が不要で誰の声でも声質変換できるようにした。

　ターゲットの声は東京大学の高道慎之介助教が公開した「JVSコーパス」を活用して作った。JVSコーパスは声優や俳優による読み上げ音声を100人分集めた素材集。Seiren Voiceでは、約1万あるJVSコーパスの音声データを全てチェックし、不完全なデータを取り除くなどデータを修正。ディープラーニングにより100人分のモデルを構築した。

JVSコーパスの配布ページ

　ドワンゴは今後、エンタテインメントの分野で声質変換技術がどのように応用できるか考えながら機能を拡充していくとしている。

嵐の歌声をAIが再現　「A・RA・SHI」の替え歌ジェネレーター登場　「違和感ない」とファン驚き
嵐のデビュー曲「A・RA・SHI」の替え歌を作れるジェネレーターが登場。ユーザーがサビの歌詞を任意の言葉に入れ替えると、メンバーの声を学習したAIが歌う。Twitterでは「違和感無くてビックリ」と話題に。
なりたい声に“転生”できる？　「転生こえうらない」グリーがβ公開、研究目的で
「『なりたい自分』になれたら、何をしますか？だれに、どんな言葉を伝えますか？」――自分の声を、「小学生」「おねえさん」などなりたい声質に変換できるボイスチェンジャーサービス「転生こえうらない」をグリーが公開。ユーザーの「なりたい自分」についての調査や、ボイスチェンジャーの品質改善のためのデータ収集が目的という。
「声を自由に変えられる技術」でコミュニケーションはどう変わる？
特定の他人の声になれる、音声変換技術はコミュニケーションにどのような影響を及ぼすのか。
“別人の声”が出せる「アニメガホン」登場　コンサート会場なら「歌手の声で」警備・案内可能に
声を通すと別人の声にリアルタイムで変換するメガホン「ANIMEGAPHONE」が登場。コンサート会場で「歌手の声」で警備や案内をするなどの利用シーンを想定している。