ITmedia NEWS > STUDIO >
インタビュー
» 2020年10月19日 08時00分 公開

「本物の嵐と区別つかない」と話題 AIが歌う「A・RA・SHI」の裏側 再現度のカギは? (1/2)

アイドルグループ「嵐」の歌声をAIが再現するジェネレーター「A・NA・TA for DREAM」が9月14日にリリースされ、Twitterなどで話題に。プロジェクトの技術的背景や仕組みを、開発元に聞いた。

[山崎潤一郎,ITmedia]

 アイドルグループ「嵐」の歌声をAIが再現するジェネレーター「A・NA・TA for DREAM」が9月14日にリリースされ、好評を得ている。Twitterでは「本物と区別がつかない」など、AIによる歌声合成の完成度の高さが話題になった。プロジェクトの技術的背景や仕組みを、開発元であるテクノスピーチの大浦圭一郎CEOに聞いた。

 「A・NA・TA for DREAM」は、13の企業が嵐とコラボして、商品などのプロモーションを実施する「HELLO NEW DREAM. PROJECT」プロジェクト内のコンテンツ。ユーザーが専用サイトにスマートフォンでアクセスし、自分の夢をテキスト入力すると、デビューシングル「A・RA・SHI」のサビの一部を嵐が歌ってくれる、という内容だ。筆者も様々な歌詞を入力して試したが、歌声合成としての再現性はもちろん、音源(楽曲)としての完成度も高く、歌声合成もここまで来たのか、という感想を持った。

5人の過去音源をAIに学習させる

photo 歌声合成サーバは、歌を生成するだけでなくミキシングやマスタリングの機能も実装している

 まず、最初にこの歌声合成の全体的な仕組みを説明しよう。文章だけでは伝わりにくいので、図も合わせてご覧頂きたい。仕組み自体は、大きく3つのプロセスに分かれる。

 まず、AIが機械学習するためのデータを準備する。嵐のこれまでの楽曲から、ボーカルトラックのみを5人個別に抜き出した音源を用意し、その音源に対応する楽譜データも準備する。用意した楽曲はおおよそ50曲。音源は、AIが学習しやすいように人力で音程、テンポ、雑音等のチェック・修正を実施する。5人分あるので、相当な工数が必要になる。この作業に概ね1カ月を要したという。

 今回のプロジェクトでは、5人が同じメロディで歌っている部分を合成するため、5人の音源に対し、同じ楽譜データを入力する必要があった。しかし、同じ楽譜データのままでは、AIが機械学習する際に各人の歌声を区別できず誤学習してしまう。そこで「あくまでも例えですが、各人の楽譜に異なる色をつけることで、同じ音符の並びであっても、AIが5人の歌声を区別して的確に学習してくれます」(大浦CEO)と説明する。

 次に、準備したデータをもとに機械学習処理を実施する。Google Cloud Platform(GCP)やAmazon Web Services(AWS)といったパブリッククラウドを利用し、こちらも約1カ月をかけて学習させた。大浦CEOは、「GPU付きの機械学習エンジンをガンガン回すのでけっこうなクラウドの利用料が発生します」と笑うが、かかった金額については非公開としている。

 最後に、今回のプロジェクト専用の歌声合成サーバを構築し、そのサーバに機械学習で得られたAIモデルを投入する。ユーザーが入力した未知の歌詞であっても、機械学習で得られた統計学的な情報をもとに、5人それぞれの音声で本人にそっくりな歌声を生成することができる。

 歌声合成サーバは、単に歌を生成するだけでなく、バックトラックと5人のメンバーの合成音声をミキシングする機能に加え、エフェクトを施すマスタリング処理(楽曲の最終調整)の工程までをも自動で行っている。つまり、録音からマスタリングまでの一般的な楽曲の制作工程をこのサーバだけで実施していることになる。録音スタジオの機能や熟練サウンドエンジニアの知恵がまるごと収まっているようなイメージだ。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.