ITmedia NEWS > 製品動向 >
ニュース
» 2021年01月29日 12時30分 公開

無調整でもほぼ人間 AI歌声合成ソフト「CeVIO AI」の実力(1/3 ページ)

歌声合成ソフト「CeVIO」が、登場から約8年たち、深層学習技術を取り入れ「CeVIO AI」としてリニューアルした。ソフト上で楽譜を打ち込んで再生ボタンを押しただけで人間らしい歌声を合成できる同ソフトを触ってみた。

[谷井将人,ITmedia]

 市販の歌声合成ソフトとして、ヤマハのVOCALOIDとともに独自の歴史を刻んできた「CeVIO」が1月29日、登場から8年を前に大きく進化。深層学習の技術を取り入れ「CeVIO AI」として、開発元のテクノスピーチが発売した。まずはその歌声を聴いてほしい。

「誰か教えて」(作詞作曲:いおたす) 曲は作曲者本人から許可を得て借りた

 これは、ソフト上で楽譜を打ち込んで再生ボタンを押しただけで出力された音声だ。それだけでこのように人間らしい歌声が出力できる。「しゃくりあげ」や「ビブラート」といった歌唱表現も勝手に付く。メインボーカルとして起用するにはもう少し調整が必要だが、作曲中の仮歌に使うなら文句のないクオリティーになっている。人間らしい歌声を合成するまでの時間が短いため、作業を迅速に進められるのがメリットの一つだ。

photo

CeVIO AIリリースまでの道のり

 CeVIOは2013年公開のWindows専用音声/歌声合成ソフト。名古屋工業大学が長年研究しているHMM(隠れマルコフモデル)による音声合成技術をもとに、人間らしい話し声や歌声を合成するソフトとして、オリジナル曲のボーカルや、ゲーム実況動画のナレーションに使われてきた。

 今回発売したのは進化版のCeVIO AI。CNN(畳み込みニューラルネットワーク)やRNN(リカレントニューラルネットワーク)といった技術を活用して、モデルとなる歌手や声優の歌い方や話し方を学習。人間らしい声を再現するソフトウェアだ。

 テクノスピーチの大浦圭一郎代表取締役によると、16年にはCeVIOへの深層学習技術の導入を開始。当時はまだ処理が重く、歌声の合成にGPUが必要で、一般的なノートPCなどでは合成が難しく「製品化はまだ遠いなと思っていた」(大浦代表)という。19年からは製品化に向け高速化や操作性の向上などを行っていた。

 1000分の5秒単位でAIが人間らしい声質などを推定して合成していたのを、推定の頻度を下げることで合成スピードを高速化。クオリティーとのバランスが取れるようになったため、製品化に踏み切ったという。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.