学習の段階では、このようなばらつきをいかに扱うかが問題だった。大道さんは「音の違いが混ざらないようにする機械学習の工夫が必要だった」と振り返る。
大道さんによると、全ての音声を一緒くたにして学習させてしまうと、なまった聞きづらい音声になってしまうという。かといって、ばらつきを抑えるために歌い方の似た音声だけ学習させるのではデータ量が足りずに質が下がってしまう。
できるだけ多くのデータを使いながら、音のなまりを防ぐために、開発チームは「収録条件の違いをAIに認識させる」という工夫を施した。
AIに歌声を学習させるときに、音声データがアナログ機材で収録されたのか、デジタル機材で収録されたのか、曲のジャンルは何なのかといった属性を認識させ、それぞれが混ざってしまわないように印を付けたのだ。
これによりなまりを減らすことに成功した。加えて、「川の流れのように」を歌っているときの歌い方に寄せたり、70年代の演歌を歌っているときの歌い方に寄せたりするといった制御ができるようになった。NHKと製作した新曲「あれから」の音声を作るときには、できるだけ晩年の音色に近づけたという。
制御を間違うと、AIは「プロフェッショナルじゃない、悩んだような音」を出すことがあるという。歌い方の癖自体は再現できるが、それが音楽の流れに沿って適切な場面で出てこないため、違和感のある音声になってしまう。
DNNには、楽譜に隠れた複雑な音楽の文脈を高いレベルで分析できる性質があるといわれている。
音楽には音の高さや楽曲のテンポ、メロディーの形や全体の構成など、さまざまな流れがある。同じ音でも、隣り合う音との関係や、曲全体の盛り上がり具合などを考えながら表現を変えることで、人間らしい歌声になる。
DNNは音の前後関係という狭い範囲の流れだけでなく、全体の構成も分析できるため、才野さんは「DNNが、文脈に応じて複雑な音を出す能力をかなり押し上げた」と感じたという。
DNNを使うことで、美空ひばりさんの癖が楽曲の正しい位置に出せるようになる。とはいえ、DNNを使えば簡単に故人をよみがえらせられるというわけではない。美空ひばりさんの歌をよく知る人々からのフィードバックを基に、複数あるモデルの影響力のバランスを試行錯誤したり、適切な結果が得られるように入力する情報をコントロールしたりして、美空ひばりさんらしい歌声を探し当てなければいけないのだ。
DNNは音声合成の研究分野では2013年ごろから注目されだした。その後16年には名古屋工業大学がDNNを歌声合成に活用したシステム「Sinsy」を一般に公開。17年には音声合成システム「VoiceText」を開発したHOYA(東京都新宿区)、18年には日本マイクロソフトがDNNを活用して合成した歌声を使ったデモ楽曲を公開した。このように、DNNを使った歌声合成は今盛り上がりを見せている技術だ。
大道さんと才野さんは、「本当に、ひばりさんが生前多くの人に届けていた感動をもう一回届けたい」という思いで美空ひばりさんの歌声を合成したという。NHKの番組が放送されたあと、Twitterでは「美空ひばり」がトレンド入りし、歌声合成技術だけでなく、倫理や芸術など文化的な面でも多くの人の興味を引いている。
学術領域を出て、一般の耳に触れる機会も増えてきたDNNと歌声合成。技術と文化の両面で議論を巻き起こすヤマハの技術だけでなく、DNNを活用したさまざまな歌声合成システムや、AIを使わないこれまでのソフトウェアについても、今後多くの期待と議論が寄せられるだろう。
ヤマハは今後も歌声合成の研究を進め、より人間に近い歌声や電子音声として魅力的な歌声を追求していくという。
「歌声合成でここまでできてすごいと言われるのもうれしいが、これは『歌声合成なのにすごい』という反応。最終的には純粋に歌としてすごいと言われるところまで行きたい。AIというげたなしで評価されるものが作れるといい」(才野さん)
「AI美空ひばり」の舞台裏 「冗談でやっていいことではない」──故人をよみがえらせたヤマハの技術者の思い
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR