ITmedia NEWS > STUDIO >
ITmedia AI+ AI活用のいまが分かる

「本物の嵐と区別つかない」と話題 AIが歌う「A・RA・SHI」の裏側 再現度のカギは?(2/2 ページ)

» 2020年10月19日 08時00分 公開
[山崎潤一郎ITmedia]
前のページへ 1|2       

学習用にメンバーが歌う童謡を新たに収録

 機械学習用の音源は、過去の楽曲のボーカルトラックから抜き出したものを利用したと前述した。しかし、大浦CEOによれば、今回のプロジェクト用に新たに一部スタジオ収録した音源も活用しており「過去の楽曲では登場しない『みゃ、みゅ、みょ』のような特殊な音声を収録してもらいました」としている。その際、単に発語するのではなく、童謡の歌詞の一部を『みゃ』などの言葉に変えて歌ってもらうことで、AIが学習しやすくしたという。

 筆者自身、いろいろな歌詞を入力し、歌声合成を試した際に感心したことがある。自分の夢を語る部分のテキストは、8~16文字と指定されている。しかし、オリジナルの「からだじゅうにかぜをあつめて」は全部で14文字だ。当然ながら、オリジナルの譜割(音符に対する歌詞の割り当て)に対し、字足らず字余りの状況も起こり得る。この部分の処理も見事で、字足らず字余りの歌詞でも、納得できる譜割で歌ってくれる。

 「足りない部分は長音で伸ばし、字余りのところは、2文字を1音に割り当てる処理を行っています。入力された言葉を解析して、統計学的な情報をもとに処理する仕組みです。今回のプロジェクトのために、譜割専用のプログラムを開発し実装しました」(大浦CEO)

 そこで、いじわるな実験をしてみた。オリジナルと同じ歌詞「からだじゅうにかぜをあつめて」と入力すると、AIはオリジナル通りに歌うのか、という疑問だ。結果は、オリジナルとは異なっていた。次の楽譜は上がオリジナルで、下が歌声合成出力したものだ。

photo 上がオリジナルで、下が歌声合成出力した譜割。最後の2つの16分音符は、次の歌詞の「まきおこせ」の「まき」がアウフタクト(弱起:メロディが前の小節に食い込む形で始まること)として割当られる。あくまでも簡略化した記譜であることをお許しいただきたい

 この相違点について、大浦CEOは「『からだじゅう』の『う』を入力しているからです。実際の歌では『からだじゅー』と音引きして歌われます。試しに『からだじゅに』と『う』を省略して歌わせると、かなり近くなると思います」と説明する。『う』を省略して試してみると、確かにオリジナルと同じ譜割で歌ってくれた。

ヤマハの「ボーカロイド」と何が違うのか

 歌声合成の分野では、ヤマハの「VOCALOID」(ボーカロイド)が有名だ。しかし、テクノスピーチの歌声合成とボーカロイドは、技術的なアプローチがまったく異なる。ボーカロイドはあくまでも、歌詞付きで歌メロを奏でる楽器という位置づけだ。声優などの声をサンプリングした上で、入力された歌詞と音符に対し、サンプル音源を鳴らす、という考え方で構築されており、今回のようにAIが本人の歌を学習し、歌声を作り出すというものではない。

 ただし、2019年末の紅白歌合戦で話題になったヤマハの「AI美空ひばり」は、テクノスピーチの考え方に近い技術で歌声合成を実現している。とはいえ、AI美空ひばりは、紅白歌合戦で歌唱させることを目標にしたプロジェクトだ。一度だけのステージを完璧にやり遂げることが最大の目標だ。

 そのため、機械学習で構築した美空ひばりの歌声を、技術者が自らの経験則に裏打ちされたスキルを駆使しパラメーターの調整を行うことで、あの歌を実現している。いうなれば、属人的な職人芸に支えられているわけだ。一方で、「A・NA・TA for DREAM」は、人間の手が一切加わることのない、完全に自動化された純粋なAIによる歌声合成である。

 大浦CEOによると、今回のプロジェクトは、AIによる歌声合成の最先端技術を投入して実現したという。アート系のクリエイティブコンテンツの生成は、AIにとって苦手な領域という見方もある。しかし、歌声合成された嵐の歌を聴いていると、遠くない将来には、AIが多くの人を魅了する作品を生み出す日がやってくるのではないか、という可能性を感じることができた。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.