Azure「Custom Neural Voice」は音声合成サービスのハードルを下げるか

Microsoftがこれまでよりも少ない音声データからより自然なデジタル音声データを生成する機能「Custom Neural Voice」を公開した。音声サービス開発に弾みがつくか。

» 2021年02月16日 19時06分 公開
[後藤大地, 原田美穂有限会社オングス]

この記事は会員限定です。会員登録すると全てご覧いただけます。

 デジタル音声は企業のブランドイメージの一つになろうとしている。身近なところでは音声アシスタント機能やスマートスピーカーが該当するが、それ以外にも対話インタフェースに音声が使われる場面は増えつつある。少ないサンプル音声で自然な音声を合成できれば顧客サービスやアクセシビリティーサポートなど、さまざまな領域で音声合成によるサービス開発の可能性が広がる。

 Microsoftは2021年2月、「Azure Cognitive Services」の「Text-to-Speech」(TTS)機能にある「Custom Neural Voice」という機能を一般公開(GA:General Availability)した。オリジナルのデジタル音声を作成する機能で、これまでよりも少ない音声データからより自然なデジタル音声を開発できるとされる。GAではあるが本稿執筆時点ではMicrosoftに使用を申請し承認を得る必要がある。

General Availability: Custom Neural Voice a Text-to-Speech capability within Speech Service | Azure updates | Microsoft Azure,General Availability: Custom Neural Voice, a Text-to-Speech capability within Speech Service | Azure updates | Microsoft Azure

日本語の音声もGAに 今までのサービスとどこが違う?

 実際に人間が喋った音声データからデジタル音声を学習させ生成するサービスはこれまでも存在したが、今回のサービスは何が違うのだろうか。

Copyright © ITmedia, Inc. All Rights Reserved.