無調整でもほぼ人間　AI歌声合成ソフト「CeVIO AI」の実力（1/3 ページ）

» 2021年01月29日 12時30分公開

[谷井将人，ITmedia]

　市販の歌声合成ソフトとして、ヤマハのVOCALOIDとともに独自の歴史を刻んできた「CeVIO」が1月29日、登場から8年を前に大きく進化。深層学習の技術を取り入れ「CeVIO AI」として、開発元のテクノスピーチが発売した。まずはその歌声を聴いてほしい。

「誰か教えて」（作詞作曲：いおたす）　曲は作曲者本人から許可を得て借りた

　これは、ソフト上で楽譜を打ち込んで再生ボタンを押しただけで出力された音声だ。それだけでこのように人間らしい歌声が出力できる。「しゃくりあげ」や「ビブラート」といった歌唱表現も勝手に付く。メインボーカルとして起用するにはもう少し調整が必要だが、作曲中の仮歌に使うなら文句のないクオリティーになっている。人間らしい歌声を合成するまでの時間が短いため、作業を迅速に進められるのがメリットの一つだ。

CeVIO AIリリースまでの道のり

　CeVIOは2013年公開のWindows専用音声／歌声合成ソフト。名古屋工業大学が長年研究しているHMM（隠れマルコフモデル）による音声合成技術をもとに、人間らしい話し声や歌声を合成するソフトとして、オリジナル曲のボーカルや、ゲーム実況動画のナレーションに使われてきた。

　今回発売したのは進化版のCeVIO AI。CNN（畳み込みニューラルネットワーク）やRNN（リカレントニューラルネットワーク）といった技術を活用して、モデルとなる歌手や声優の歌い方や話し方を学習。人間らしい声を再現するソフトウェアだ。

　テクノスピーチの大浦圭一郎代表取締役によると、16年にはCeVIOへの深層学習技術の導入を開始。当時はまだ処理が重く、歌声の合成にGPUが必要で、一般的なノートPCなどでは合成が難しく「製品化はまだ遠いなと思っていた」（大浦代表）という。19年からは製品化に向け高速化や操作性の向上などを行っていた。

　1000分の5秒単位でAIが人間らしい声質などを推定して合成していたのを、推定の頻度を下げることで合成スピードを高速化。クオリティーとのバランスが取れるようになったため、製品化に踏み切ったという。

キャラごとの挙動や癖もかなり違う

　　　　　　 1|2|3 次のページへ