ITmedia NEWS > STUDIO >
ニュース
» 2020年11月02日 07時00分 公開

「今の歌声合成ソフト市場は30年前のシンセ市場のよう」――AHSが見る業界の現在地

複数の音声合成ソフトを販売するAHSの尾形友秀代表は、現在の歌声合成ソフト市場について「ちょうど30年くらい前の、各社が面白い楽器をたくさん出していたころに重なる」と語った。

[谷井将人,ITmedia]

 「ちょうど30年くらい前の、各社が面白い楽器をたくさん出していたころに重なる」――自社開発した「VOICEROID」をはじめ、他社製品を含む複数の音声合成ソフトを販売するAHS(東京都台東区)の尾形友秀代表は、現在の歌声合成ソフト市場についてこう語る。

photo AHSのWebサイト

 AHSは2009年から、他社の歌声合成ソフトも含め取り扱いを開始。自社製品のVOICEROIDだけでなく、ヤマハの「VOCALOID」に向けた音源を販売してきた。20年10月には、他社のAI歌声合成ソフトも取り扱うと発表。「CeVIO AI」(テクノスピーチ製)や「Synthesizer V AI」(Dreamtonics製)を近く販売するとした。

Synthesizer V AIのデモ音声

 AI歌声合成ソフトは、あらかじめ人間の歌声を学習したAIが、入力された楽譜データを基に人間らしい歌声を自動でシミュレーションして合成するもの。これまでは法人向けや研究目的で開発されるケースが多く、個人にも公開されたAI歌声合成ツールは、統計手法によってクラウド上で歌声合成を行っていた名古屋工業大学の「Sinsy」などに限られていた。

 日本マイクロソフトの「りんな」やヤマハの「AI美空ひばり」など、AIによる合成音声はこれまでも公開されてきたが、いずれも一般のクリエイターが使えるツールとしては出ていなかった。

 一方、20年にはクリエイター向けのAI歌声合成ソフトが一気に増えた。2月には個人開発のAI歌声合成ソフト「NEUTRINO」が登場してニコニコ動画などで話題になった。CeVIO AIはメーカーのテクノスピーチが7月に発表。Synthesizer V AIが続いた形だ。

 AI歌声合成ソフトが相次いで登場している現状を、尾形代表は「TM NETWORKが全盛期を迎えた、ちょうど30年くらい前のシンセサイザー業界の雰囲気に似ている」と表現する。

 尾形代表によると、当時のシンセサイザーはアナログな本物の楽器の音に似せようとしても限界があったという。その後、あらかじめ収録しておいた音声を使う「PCM方式」や、各メーカーによる独自開発したヤマハのAWM2などによる、実際の楽器に近い音を出せる合成方式が登場し、90年代後半には素人が聞けば本物と間違うような音が出せるようになった。

photo AWM2音源搭載のヤマハ「MONTAGE」

 しかし、尾形代表は「本当に面白くなったのはその後だった」と話す。アナログな楽器をある程度正確に模倣できるようになった後、今度はシンセサイザーでなければ出せない音を追求するようになり、従来にはなかった音や表現が生まれたという。

 「歌声合成の最初のゴールは、シンセサイザー同様、本物の声のクオリティーが出せることだと思う。しかし本当に面白いのは、ある程度クオリティーが出てきた後に創造される音だと思っている」(尾形代表)

 AI歌声合成ソフトは人間を模倣するため、人間離れした音声を合成するのにはあまり向いていない面がある。2月に登場したNEUTRINOは、人間には歌いにくい早口や、何十秒も息継ぎができないような長いフレーズを歌わせると、歌声が破綻することもネット上で指摘されている。

 超高速歌唱や超高音など、人間には歌えないような楽曲はVOCALOIDの初音ミクが登場したころに作られた。尾形代表もその新しい歌唱表現に可能性を感じたという。VOCALOIDは、あらかじめ収録した音声波形を加工し、切り貼りして歌声を作る「素片接続」という合成方法を採用している。

 尾形代表はAI歌声合成について「ぱっと聞いたときに人間のように聞こえるようなクオリティーになってきた」と評価した上で、「これから1〜2年はもてはやされるだろう。今後5年を考えると、(新しい表現を求めて)AIと従来の素片接続を併用する作品が生まれるんじゃないかと思う」と予測している。

Copyright © ITmedia, Inc. All Rights Reserved.