「AI美空ひばり」を支えた技術　「七色の声」どう再現？　ヤマハ技術者に詳しく聞いた（2/2 ページ）

» 2019年10月02日 15時30分公開

[谷井将人，ITmedia]

前のページへ 1|2 　　　　　　

「アナログかデジタルか」ラベル付けでうまく学習　「歌い分け」も可能に

大道竜之介さん

　学習の段階では、このようなばらつきをいかに扱うかが問題だった。大道さんは「音の違いが混ざらないようにする機械学習の工夫が必要だった」と振り返る。

　大道さんによると、全ての音声を一緒くたにして学習させてしまうと、なまった聞きづらい音声になってしまうという。かといって、ばらつきを抑えるために歌い方の似た音声だけ学習させるのではデータ量が足りずに質が下がってしまう。

　できるだけ多くのデータを使いながら、音のなまりを防ぐために、開発チームは「収録条件の違いをAIに認識させる」という工夫を施した。

　AIに歌声を学習させるときに、音声データがアナログ機材で収録されたのか、デジタル機材で収録されたのか、曲のジャンルは何なのかといった属性を認識させ、それぞれが混ざってしまわないように印を付けたのだ。

　これによりなまりを減らすことに成功した。加えて、「川の流れのように」を歌っているときの歌い方に寄せたり、70年代の演歌を歌っているときの歌い方に寄せたりするといった制御ができるようになった。NHKと製作した新曲「あれから」の音声を作るときには、できるだけ晩年の音色に近づけたという。

　制御を間違うと、AIは「プロフェッショナルじゃない、悩んだような音」を出すことがあるという。歌い方の癖自体は再現できるが、それが音楽の流れに沿って適切な場面で出てこないため、違和感のある音声になってしまう。

“癖”のタイミングをDNNで適切に　「ひばりさんらしさ」再現

　DNNには、楽譜に隠れた複雑な音楽の文脈を高いレベルで分析できる性質があるといわれている。

　音楽には音の高さや楽曲のテンポ、メロディーの形や全体の構成など、さまざまな流れがある。同じ音でも、隣り合う音との関係や、曲全体の盛り上がり具合などを考えながら表現を変えることで、人間らしい歌声になる。

「NHKスペシャル　AIでよみがえる　美空ひばり」より

　DNNは音の前後関係という狭い範囲の流れだけでなく、全体の構成も分析できるため、才野さんは「DNNが、文脈に応じて複雑な音を出す能力をかなり押し上げた」と感じたという。

　DNNを使うことで、美空ひばりさんの癖が楽曲の正しい位置に出せるようになる。とはいえ、DNNを使えば簡単に故人をよみがえらせられるというわけではない。美空ひばりさんの歌をよく知る人々からのフィードバックを基に、複数あるモデルの影響力のバランスを試行錯誤したり、適切な結果が得られるように入力する情報をコントロールしたりして、美空ひばりさんらしい歌声を探し当てなければいけないのだ。

　DNNは音声合成の研究分野では2013年ごろから注目されだした。その後16年には名古屋工業大学がDNNを歌声合成に活用したシステム「Sinsy」を一般に公開。17年には音声合成システム「VoiceText」を開発したHOYA（東京都新宿区）、18年には日本マイクロソフトがDNNを活用して合成した歌声を使ったデモ楽曲を公開した。このように、DNNを使った歌声合成は今盛り上がりを見せている技術だ。

「技術的に」だけでなく、「芸術としてすごい」を目指す

　大道さんと才野さんは、「本当に、ひばりさんが生前多くの人に届けていた感動をもう一回届けたい」という思いで美空ひばりさんの歌声を合成したという。NHKの番組が放送されたあと、Twitterでは「美空ひばり」がトレンド入りし、歌声合成技術だけでなく、倫理や芸術など文化的な面でも多くの人の興味を引いている。

才野慶二郎さん

　学術領域を出て、一般の耳に触れる機会も増えてきたDNNと歌声合成。技術と文化の両面で議論を巻き起こすヤマハの技術だけでなく、DNNを活用したさまざまな歌声合成システムや、AIを使わないこれまでのソフトウェアについても、今後多くの期待と議論が寄せられるだろう。

　ヤマハは今後も歌声合成の研究を進め、より人間に近い歌声や電子音声として魅力的な歌声を追求していくという。

　「歌声合成でここまでできてすごいと言われるのもうれしいが、これは『歌声合成なのにすごい』という反応。最終的には純粋に歌としてすごいと言われるところまで行きたい。AIというげたなしで評価されるものが作れるといい」（才野さん）

　「AI美空ひばり」の舞台裏　「冗談でやっていいことではない」──故人をよみがえらせたヤマハの技術者の思い

「AI美空ひばり」の舞台裏　「冗談でやっていいことではない」──故人をよみがえらせたヤマハの技術者の思い
ヤマハがAIの技術を活用して故・美空ひばりさんの歌声を再現し、新曲を披露した。実際に開発を行った研究者は何を考えていたのか、詳しく聞いた。
ヤマハ、深層学習で美空ひばりの歌唱を再現　VOCALOIDの技術をAIで発展　NHKで披露
ヤマハがディープラーニングの技術を活用した同社の歌声合成技術「VOCALOID:AI」を使い、美空ひばりさんの歌声を再現。NHKが放送する番組内で新曲を披露する。
「本当にすごい」「感動した」──AIの美空ひばりが新曲披露、ネットで話題に
AIで故・美空ひばりさんの歌声を再現するドキュメンタリー番組が放送され、ネットでは絶賛する声が上がった。
元・女子高生AI「りんな」は、人間の歌声を手本にボイトレ　開発者が明かす裏話
日本マイクロソフトのAI「りんな」の歌声は、「本当にAI？　人間の声では？」といわれるほど。影武者の人間がいるわけではなく、音声合成で作り上げた歌声を使っているという。開発者が「りんなのボイトレ」の舞台裏を明かした。
元歌手と判別できないレベルのAI歌声合成、名古屋工業大学と音声ベンチャーが開発
聴いてみればわかるが、人間の歌だ。上手い人は上手く、それなりの人はそれなりに。