ITmedia NEWS > 科学・テクノロジー >

リアルな人間っぽい合成音声を生成するAI 「えー」「あぁ」「うん」なども再現 YouTubeやPodcastで学習Innovative Tech

» 2023年03月20日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 米カーネギーメロン大学に所属する研究者らが発表した論文「A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech」は、より人間に近い会話の音声合成を生成できる学習モデルを提案した研究報告である。

 テキストから音声合成を生成するText-to-Speech(TTS)システムは、合成した音声の品質を大幅に向上させた。しかし、TTSシステムのトレーニングに使用する標準コーパスは、ほとんどの場合、制御された環境で録音した読み上げや演技の音声を含む。

 一方、人間は、微妙な感情をパラ言語(会話時に情報を補う言語以外の音声)で伝える多様な韻律を持つ音声を自発的に生成している。相づちや咳払い、さまざまなリズムやパターンを持った「えー」「あぁ」「うん」などの間を埋める音声などが含まれる。

 この能力は、実世界の音声に膨大な時間触れることで得られるため、大量の学習が行えるTTSシステムでもパラ言語を含む音声合成の生成ができると研究チームは考えた。最終的な目標は、ASR(自動音声認識)システムを使って実世界の音声を書き起こすことだが、ここでは、すでに書き起こされたコーパスを使うことで設定を単純化し、TTSに焦点を当てる。

 研究チームは、YouTubeやPodcastから収集した実世界の約900時間分の話し言葉を使って、TTSベースの音声合成モデル「MQTTS」を訓練した。このモデルは、新しい音声データを個別のチャンクに切り分け、ニューラルネットワークを使って、どのチャンクの音声またはパラ言語が、一連の流れの中で次に来る可能性が最も高いかを予測して新しい音声を生成する。

システムの概要

 どれくらい人間の音声と類似しているかを評価するための実験を行った。クラウドソーシングプラットフォーム「Amazon Mechanical Turk」で募集した参加者たちに、これらの音声を聞いてもらい、自然さを1(悪い)から5(良い)までの5段階で評価してもらった。

 その結果、平均3.89点を獲得し、他のモデルによる音声合成よりも優れていることを示した。ちなみに、実際の人間の音声は4.01点であった。

Source and Image Credits: Chen, Li-Wei, Shinji Watanabe, and Alexander Rudnicky. “A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech.” arXiv preprint arXiv:2302.04215(2023).



Copyright © ITmedia, Inc. All Rights Reserved.