Microsoftがこれまでよりも少ない音声データからより自然なデジタル音声データを生成する機能「Custom Neural Voice」を公開した。音声サービス開発に弾みがつくか。
この記事は会員限定です。会員登録すると全てご覧いただけます。
デジタル音声は企業のブランドイメージの一つになろうとしている。身近なところでは音声アシスタント機能やスマートスピーカーが該当するが、それ以外にも対話インタフェースに音声が使われる場面は増えつつある。少ないサンプル音声で自然な音声を合成できれば顧客サービスやアクセシビリティーサポートなど、さまざまな領域で音声合成によるサービス開発の可能性が広がる。
Microsoftは2021年2月、「Azure Cognitive Services」の「Text-to-Speech」(TTS)機能にある「Custom Neural Voice」という機能を一般公開(GA:General Availability)した。オリジナルのデジタル音声を作成する機能で、これまでよりも少ない音声データからより自然なデジタル音声を開発できるとされる。GAではあるが本稿執筆時点ではMicrosoftに使用を申請し承認を得る必要がある。
実際に人間が喋った音声データからデジタル音声を学習させ生成するサービスはこれまでも存在したが、今回のサービスは何が違うのだろうか。
Copyright © ITmedia, Inc. All Rights Reserved.