ドワンゴは9月14日、ディープラーニング技術を活用したボイスチェンジャー「Seiren Voice」をWebサイトで無償公開した。デモページでは、声を録音して変換先の声を選び、変換ボタン押すと自分の声を100人分の声に変換できる。
録音した音声を加工するのではなく、目標の人物の声に変換するもの。選べるターゲットの数は100種類。変換のリアルタイム性より変換品質を優先しており、変換には数十秒から数分の時間がかかる。
既存の声質変換システムはリアルタイムに変換するものが多く、品質を重視したものはあまり見かけないとして開発に挑んだという。音声の合成には、スマートスピーカーなどで使われるWaveNetという方式から派生したWaveRNNを採用した。
ディープラーニングを使った声質変換では、変換前の声と目標とする人物の声をセットで学習する手法がとられることがある。この手法ではボイスチェンジャーを使いたい人があらかじめ複数の文章を読み上げ、機械学習をやり直す必要があり手間が掛かる。
Seiren Voiceでは、音声から音声に直接変換するのではなく、音声を「音素」「音高」「発音タイミング」に分解し、それらのデータを基に目標とする人物の声を再構築する。事前の録音が不要で誰の声でも声質変換できるようにした。
ターゲットの声は東京大学の高道慎之介助教が公開した「JVSコーパス」を活用して作った。JVSコーパスは声優や俳優による読み上げ音声を100人分集めた素材集。Seiren Voiceでは、約1万あるJVSコーパスの音声データを全てチェックし、不完全なデータを取り除くなどデータを修正。ディープラーニングにより100人分のモデルを構築した。
ドワンゴは今後、エンタテインメントの分野で声質変換技術がどのように応用できるか考えながら機能を拡充していくとしている。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR