各種契約や問い合わせにおいて、Webベースの方法が充実してきた。一方で、Webベースの方法では対応がなかなか難しい人もいるため、電話(音声)窓口の重要性は衰えてはいない。しかし、通話をする人が互いの声をうまく聞き取れないということもある。
一方で、最近はWeb動画のライブ配信やメタバース空間において音声を使ったコミュニケーションも盛んだが、やはり話者の声がうまく聞き取れないということもある。もっというと「自分の声を変えたい」というニーズも存在する。
そんな背景を踏まえて、CS研ではリアルタイムかつ低遅延に声を変換するボイスチェンジャーの研究を進めている。「ボイスチェンジャーってもうあるよね?」という疑問もあるかもしれないが、CS研が追求しているのは低遅延、つまりコミュニケーションに支障を起こさない短時間での音声変換である。
低遅延のボイスチェンジャーを実現するには、話者の声の特性(個人性)を徹底的に除去して汎用(はんよう)的な音声表現とし、音声変換をするタイミングで個人性を再度付与できるのが理想だという。しかし、その実現で壁となるのが「汎用的な音声表現」で、現状のボイスチェンジャーでは、中間処理の段階でどうしても個人性を取り除き切れないのだという。
そこでCS研では、中間処理における個人性に“制限”を設け、しきい値以上の個人性を除去する処理を行うことでリアルタイム性を確保した。個人性の再付与には話者ごとの個人性を考慮した深層生成モデルを使うことで、バッファー(=未来方向のデータ)を使わずに変換処理を行うことも、リアルタイム性の向上に寄与している。
ボイスチェンジャーにリアルタイム性が欠ける原因の1つとして、精度を高めるために未来方向のデータを必要とすることが挙げられる。そこで今回の研究では、未来方向のデータを使わないで変換することでリアルタイム性を向上している。懸念点は音声品質の劣化だが、先に紹介した深層生成モデルを使うことで音質向上を図っているという音声のリアルタイム変換は、簡単な文章を読めばすぐに使い始められる。イベントのデモ展示では、「ずんだもん」や「つくよみちゃん」を含む4種類の声で実際にボイスチェンジを体験できる。
なお、本研究はスマートフォンでも稼働することが既に確認されている。なりすまし対策と合わせて、実用化を前提として今後も研究を進めていくそうだ。
その後、なりたいキャラクターを選ぶことでリアルタイムボイスチェンジャーが機能する。今回のイベントでは「ずんだもん」や「つくよみちゃん」の声を選ぶことも可能だ。なお、写真ではmacOS上で稼働しているが、本プログラムにはWindows版もあるそうだCopyright © ITmedia, Inc. All Rights Reserved.