Alexa、“ニュースキャスター風”など特徴のある話し方ができるように
Amazonが独自の音声合成技術「NTTS(Neural Text-To-Speech)」にスタイルエンコードを加えることで、音声アシスタント「Alexa」に、ニュートラルな話し方だけでなく、ニュースキャスター風の発声スタイルでニュースを読み上げられるようにしたと発表した。
米Amazon.comは11月19日(現地時間)、独自開発のニューラルネットワーク採用音声合成技術「NTTS(Neural Text-To-Speech)」で、AIアシスタント「Alexa」にプロのニュースキャスターのようにニュースを読み上げさせられるようになったと発表した。
Alexaの発声スタイルは、特に英語の場合はかなり自然だが、非常にニュートラル(中立的)で特徴がない。一方、プロのニュースキャスターの発声スタイルには独得のリズムや間がある。NTTSで作った「ニュースキャスター」は、こうした特徴を備える。
NTTSは、音素のシーケンスを音響スペクトログラムのシーケンスに変換するニューラルネットワークと、そのスペクトログラムのシーケンスを連続する音響信号に変換するボコーダーの2つのコンポーネントで構成される。
NTTSで大規模なデータセットで訓練すれば、高品質でニュートラルな発声スタイルが得られる。だが、特定の発声スタイルを表現するために必要な特定の機能が欠けており、高品質ではあっても特徴のない話し方になる。とはいえ、特徴のある話し方のデータセットを生成するには時間もコストも掛かる。
Amazonは、シーケンスからシーケンスに変換するモデルを変更することで、ニュートラルな大規模データセットを使って特徴のある発声スタイルのシンセサイザーを訓練できることに気づき、モデルの訓練に話し方のスタイルを識別する「スタイルエンコード」を追加することで、数時間の訓練で特定の発声スタイルを実現することに成功したという。
この手法で作った「ニュースキャスター」NTTS、ニュートラルなNTTS、一般的な連結合成システム、人間のニュースキャスターに同じニュースを読み上げさせる実験を行ったところ、リスナーの評価が最も高かったのは人間だが、次点のニュースキャスターNTTSはニュートラルなNTTSよりはるかに評価が高かった。
人間のニュースキャスター以外の3種類の読み上げの録音を公式ブログで聞き比べられる。
関連記事
- Alexaの代わりに「AIアナウンサー」がニュース読み上げ SpecteeがAPI提供
Amazon EchoなどでAlexaの代わりに「AIアナウンサー」が音声を読み上げるためのモジュールを、AIベンチャーのSpecteeが開発。Alexaスキルを開発する事業者向けに提供を始める。 - 音声合成はアナウンサーや声優の仕事を奪うのか?
「AIアナウンサー」など、コンピュータが人間の代わりに音声の読み上げを務める機会が増えている。音声合成はどこまで人間のようにしゃべることができるのか。 - 自然な音声作る「WaveNet」の衝撃 なぜ機械は人と話せるようになったのか
流ちょうな日本語を発声するスマートスピーカー。「こんな音声合成ができるにはあと10年かかると思っていた」と研究者は衝撃を受けている。これを実現したWaveNetとは何か。スマートスピーカーを作る技術がどんなものかを研究者に聞く。 - “AIアナウンサー”がラジオ放送 Amazonの音声合成技術で
コミュニティーFMを運営するエフエム和歌山が、AIサービス「Amazon Polly」を使ったラジオ放送を7月に始めた。ニュース原稿を自動で読み上げるという。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.