リアルタイム低遅延ボイチェンのポイントは“個性の制限”? NTTが研究成果を発表する「オープンハウス」が6月24日から大阪で開催(2/3 ページ)

» 2024年06月19日 00時00分 公開
[井上翔ITmedia]

超低遅延のリアルタイムボイスチェンジャー

 各種契約や問い合わせにおいて、Webベースの方法が充実してきた。一方で、Webベースの方法では対応がなかなか難しい人もいるため、電話(音声)窓口の重要性は衰えてはいない。しかし、通話をする人が互いの声をうまく聞き取れないということもある。

 一方で、最近はWeb動画のライブ配信やメタバース空間において音声を使ったコミュニケーションも盛んだが、やはり話者の声がうまく聞き取れないということもある。もっというと「自分の声を変えたい」というニーズも存在する。

 そんな背景を踏まえて、CS研ではリアルタイムかつ低遅延に声を変換するボイスチェンジャーの研究を進めている。「ボイスチェンジャーってもうあるよね?」という疑問もあるかもしれないが、CS研が追求しているのは低遅延、つまりコミュニケーションに支障を起こさない短時間での音声変換である。

リアルタイム性 リアルタイムボイスチェンジャーの研究背景。ビジネスや実生活のコミュニケーションに支障をきたさないリアルタイム性を重視していることがポイントだ

 低遅延のボイスチェンジャーを実現するには、話者の声の特性(個人性)を徹底的に除去して汎用(はんよう)的な音声表現とし、音声変換をするタイミングで個人性を再度付与できるのが理想だという。しかし、その実現で壁となるのが「汎用的な音声表現」で、現状のボイスチェンジャーでは、中間処理の段階でどうしても個人性を取り除き切れないのだという。

 そこでCS研では、中間処理における個人性に“制限”を設け、しきい値以上の個人性を除去する処理を行うことでリアルタイム性を確保した。個人性の再付与には話者ごとの個人性を考慮した深層生成モデルを使うことで、バッファー(=未来方向のデータ)を使わずに変換処理を行うことも、リアルタイム性の向上に寄与している。

音声の抑揚など 音声の抑揚や声質など、個人性に関わる部分は層生成モデルを使うことで低遅延処理につなげている
課題 従来のボイスチェンジャーでは、個人性が多く残留しているデータを使うため、変換パフォーマンスにマイナスの影響を与えていた
解決 そこで今回の研究では、個人性の残留に“制約”を設けることで変換パフォーマンスを向上した
未来方向なし ボイスチェンジャーにリアルタイム性が欠ける原因の1つとして、精度を高めるために未来方向のデータを必要とすることが挙げられる。そこで今回の研究では、未来方向のデータを使わないで変換することでリアルタイム性を向上している。懸念点は音声品質の劣化だが、先に紹介した深層生成モデルを使うことで音質向上を図っているという

 音声のリアルタイム変換は、簡単な文章を読めばすぐに使い始められる。イベントのデモ展示では、「ずんだもん」や「つくよみちゃん」を含む4種類の声で実際にボイスチェンジを体験できる。

 なお、本研究はスマートフォンでも稼働することが既に確認されているなりすまし対策と合わせて、実用化を前提として今後も研究を進めていくそうだ。

レコーディング 使い始める前に「こんにちは、音声変換を体験しに来ました。」という文章を読み上げる。これにより、話者の個人性を把握する
4種類の音声 その後、なりたいキャラクターを選ぶことでリアルタイムボイスチェンジャーが機能する。今回のイベントでは「ずんだもん」や「つくよみちゃん」の声を選ぶことも可能だ。なお、写真ではmacOS上で稼働しているが、本プログラムにはWindows版もあるそうだ
今後 本研究はスマートフォンで稼働する「モバイル版」も既に用意されているが、現在は実使用環境を想定した品質改善を行っているという。それと並行して、懸念事項である「なりすまし対策」も研究が進められている

Copyright © ITmedia, Inc. All Rights Reserved.

アクセストップ10

2025年12月06日 更新
最新トピックスPR

過去記事カレンダー