ここまでAIの強みと弱みを見てきたが、AI歌声合成ソフトを使う中で見えてくる人間の強みもある。人間はAIよりイレギュラーが多いのだ。
AIは勝手に歌うとはいえ、入力する楽譜が一緒ならさすがにほぼ同じ結果を出力する。再現性が高いのはメリットでもあるが、裏返せば表現に幅がないということでもある。
人間は同じ楽譜でも歌うたびに違う結果になる。同じ曲を収録する場合でも、何回も録音すれば偶然とてもよいテイクができることがあり得る。Synthesizer V AIに限らず、AI歌声合成ソフトはブレがないため、私の経験では2回出力しても改善が見られなければ、それ以上は何をしても無駄なことが多い印象だ。
同じ楽譜でも文脈が違えば違う歌い方をするのも人間の強みだ。うれしそうに歌うことも悲しそうに歌うこともできる。感情ごとに歌い分ける技術は日本マイクロソフトなどが研究しているが、Synthesizer V AIの場合、そのレベルの感情表現は人間の編集で演出する必要がある。
たとえAIを活用したソフトといえども、そういった編集はユーザーの腕次第だ。簡単に触ってみた限り、Synthesizer V AIの音源「Saki AI」は結構感情を乗せやすい印象だった。しゃくりあげをさせればためらうように聞こえるし、ささやかせれば落ち込んだように聞こえる。編集前の時点でいくらか人間っぽいからかもしれない。
AI歌声合成ソフトに触れ、AIの「いつでもすぐさま平常通りのコンディションで歌ってくれる」「むちゃぶりしても文句を言ってこない」というメリットが分かった。逆に人間は「いい意味でブレがある」「文脈を読む力がある」という強みがある。AIを知れば、人間も見えてくる。これからのクリエイターにとって大事なことかもしれない。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR