米カーネギーメロン大学に所属する研究者らが発表した論文「A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech」は、より人間に近い会話の音声合成を生成できる学習モデルを提案した研究報告である。

　テキストから音声合成を生成するText-to-Speech（TTS）システムは、合成した音声の品質を大幅に向上させた。しかし、TTSシステムのトレーニングに使用する標準コーパスは、ほとんどの場合、制御された環境で録音した読み上げや演技の音声を含む。

　一方、人間は、微妙な感情をパラ言語（会話時に情報を補う言語以外の音声）で伝える多様な韻律を持つ音声を自発的に生成している。相づちや咳払い、さまざまなリズムやパターンを持った「えー」「あぁ」「うん」などの間を埋める音声などが含まれる。

　この能力は、実世界の音声に膨大な時間触れることで得られるため、大量の学習が行えるTTSシステムでもパラ言語を含む音声合成の生成ができると研究チームは考えた。最終的な目標は、ASR（自動音声認識）システムを使って実世界の音声を書き起こすことだが、ここでは、すでに書き起こされたコーパスを使うことで設定を単純化し、TTSに焦点を当てる。

　研究チームは、YouTubeやPodcastから収集した実世界の約900時間分の話し言葉を使って、TTSベースの音声合成モデル「MQTTS」を訓練した。このモデルは、新しい音声データを個別のチャンクに切り分け、ニューラルネットワークを使って、どのチャンクの音声またはパラ言語が、一連の流れの中で次に来る可能性が最も高いかを予測して新しい音声を生成する。

システムの概要

　どれくらい人間の音声と類似しているかを評価するための実験を行った。クラウドソーシングプラットフォーム「Amazon Mechanical Turk」で募集した参加者たちに、これらの音声を聞いてもらい、自然さを1（悪い）から5（良い）までの5段階で評価してもらった。

　その結果、平均3.89点を獲得し、他のモデルによる音声合成よりも優れていることを示した。ちなみに、実際の人間の音声は4.01点であった。

Source and Image Credits: Chen, Li-Wei, Shinji Watanabe, and Alexander Rudnicky. “A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech.” arXiv preprint arXiv:2302.04215（2023）.

スマホで“ひそひそ声”を通常の声に変える技術　東大教授「WESPER」開発
ソニーコンピュータサイエンス研究所（CSL）フェロー・副所長であり東京大学大学院情報学環の暦本純一教授は、声をひそめる“ささやき声”や“かすれ声”を通常の音声にリアルタイムに変換する機械学習モデルを提案した研究報告を発表した。
無限にしゃべる「AIひろゆき」爆誕　本人っぽい声で年中無休YouTubeライブ　GPT-3活用で質問にもそれっぽく回答
I音声合成サービスを提供するCoeFontが、ひろゆきさんのようなコメントを、ひろゆきさんのような声で発し続けるAIを開発したと発表。YouTube上で24時間365日質問に答え続けられるという。
ChatGPTと会話できる電話番号、SaaS企業が公開　話しかけると音声で回答
電話自動応答サービスを提供するIVRyは、対話型AI「ChatGPT」と電話で会話できるサービス「電話GPT」を開発した。
聞き取れない声を“通常の声”に変える「人工喉」　喉に貼り付ける薄い小型マイクスピーカー
中国の清華大学、上海交通大学に所属する研究者らは、微小な声もしくは発声障害などできちんと出せない声などを通常の音量の声に変換してくれる人工喉を提案した研究報告を発表した。
“こっそり録音”するスマホを撃退できる盗聴防止装置　中国の研究者らが開発
中国の浙江大学とHIC-ZJUに所属する研究者らは、スマートデバイスで盗聴する行為を防止するための装置を提案した研究報告を発表した。