ITmedia NEWS > 速報 >
ニュース
» 2018年12月14日 12時02分 公開

元歌手と判別できないレベルのAI歌声合成、名古屋工業大学と音声ベンチャーが開発

聴いてみればわかるが、人間の歌だ。上手い人は上手く、それなりの人はそれなりに。

[松尾公也,ITmedia]

 名古屋工業大学 国際音声言語技術研究所と音声合成を柱とするベンチャー企業テクノスピーチは12月12日、これまでの歌声合成とは一線を画す、元の歌い手の声質、癖、歌い方といった特徴を捉えた歌い方をディープラーニング技術などの適用で実現した。約2時間分の音声データで学習し、日本語、英語、中国語に対応する。

 名古屋工業大学の徳田恵一教授を中心とするチームはこれまで、隠れマルコフモデルを使った統計的手法により、音声合成のOpen JTalk、歌声合成のSinsyを開発し、提供してきた。テクノスピーチはこれらを発展させた商用製品CeVIO Creative Studioの開発にも携わっている。今回の新技術はこれらを新たな次元に推し進めるものと言える。

 名古屋工業大学とその出身者によるテクノスピーチの共同研究は、2019年3月に開催される日本音響学会2019年春季研究発表で公開される。

 Sinsyと同じく、人手による調整がされていない「ベタ打ち」の歌詞付き楽譜データをMusicXML形式で与えるだけで、元歌手の特徴を再現する。

photo

 今回のデモはCeVIOで歌声を提供している、さとうささら、IAが使われていることから、CeVIOの将来バージョンまたは後継製品で使われることも予想される。

photo

 故人である三波春夫さんをバーチャルシンガーにした「ハルオロイド・ミナミ」がCeVIOに対応する歌声として製品化しているが、この新技術を使った、本物と区別がつかない仮想三波春夫による「世界の国からこんにちは」を期待したいところだ。

Copyright © ITmedia, Inc. All Rights Reserved.