Alexa、“ニュースキャスター風”など特徴のある話し方ができるように

Amazonが独自の音声合成技術「NTTS（Neural Text-To-Speech）」にスタイルエンコードを加えることで、音声アシスタント「Alexa」に、ニュートラルな話し方だけでなく、ニュースキャスター風の発声スタイルでニュースを読み上げられるようにしたと発表した。

[ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

　米Amazon.comは11月19日（現地時間）、独自開発のニューラルネットワーク採用音声合成技術「NTTS（Neural Text-To-Speech）」で、AIアシスタント「Alexa」にプロのニュースキャスターのようにニュースを読み上げさせられるようになったと発表した。

　Alexaの発声スタイルは、特に英語の場合はかなり自然だが、非常にニュートラル（中立的）で特徴がない。一方、プロのニュースキャスターの発声スタイルには独得のリズムや間がある。NTTSで作った「ニュースキャスター」は、こうした特徴を備える。

　NTTSは、音素のシーケンスを音響スペクトログラムのシーケンスに変換するニューラルネットワークと、そのスペクトログラムのシーケンスを連続する音響信号に変換するボコーダーの2つのコンポーネントで構成される。

　NTTSで大規模なデータセットで訓練すれば、高品質でニュートラルな発声スタイルが得られる。だが、特定の発声スタイルを表現するために必要な特定の機能が欠けており、高品質ではあっても特徴のない話し方になる。とはいえ、特徴のある話し方のデータセットを生成するには時間もコストも掛かる。

　Amazonは、シーケンスからシーケンスに変換するモデルを変更することで、ニュートラルな大規模データセットを使って特徴のある発声スタイルのシンセサイザーを訓練できることに気づき、モデルの訓練に話し方のスタイルを識別する「スタイルエンコード」を追加することで、数時間の訓練で特定の発声スタイルを実現することに成功したという。

NTTSにスタイルエンコードを追加した訓練

　この手法で作った「ニュースキャスター」NTTS、ニュートラルなNTTS、一般的な連結合成システム、人間のニュースキャスターに同じニュースを読み上げさせる実験を行ったところ、リスナーの評価が最も高かったのは人間だが、次点のニュースキャスターNTTSはニュートラルなNTTSよりはるかに評価が高かった。

リスナーによる聞き比べ実験の結果

　人間のニュースキャスター以外の3種類の読み上げの録音を公式ブログで聞き比べられる。

Alexa、“ニュースキャスター風”など特徴のある話し方ができるように

関連記事

関連リンク