ITmedia NEWS > 科学・テクノロジー >
ニュース
» 2019年10月02日 15時30分 公開

「AI美空ひばり」を支えた技術 「七色の声」どう再現? ヤマハ技術者に詳しく聞いた (1/2)

AIの技術を活用して、故・美空ひばりさんの歌声を再現したヤマハの技術者に、技術の仕組みや開発の苦労を詳しく聞いた。

[谷井将人,ITmedia]

 ヤマハは9月29日、NHK総合で放送されたドキュメンタリー番組「NHKスペシャル AIでよみがえる 美空ひばり」の中で、AIの技術を活用して再現した美空ひばりさんの新規音声を披露した。

photo 「NHKスペシャル AIでよみがえる 美空ひばり」より

 美空ひばりさんは1989年に亡くなった、昭和を代表する歌手の一人だ。ヤマハは機械学習の一種であるDNN(ディープニューラルネットワーク)を使い、美空ひばりさんの歌い方や話し方の癖を再現できる音声合成システムを作った。番組では作詞家の秋元康さんがプロデュースした新曲「あれから」を披露。まるで本人が歌っているかのような音声を再現した。

 番組を見た人からは、「まるで本物のようだ」と再現度に驚く声もある一方で、「子音が弱い」「声質が機械っぽい」など厳しい評価も上がっていた。

 これまで、歌声合成ソフトウェア「VOCALOID」を開発してきたヤマハだが、今は亡き美空ひばりさんの新曲を作るため、いったいどのような工夫を重ねたのか。今回はヤマハのAI研究者としてプロジェクトに参加した、大道竜之介さんと才野慶二郎さんに故人の歌声を再現する技術について詳しく話を聞いた。

photo 才野慶二郎さん(第一研究開発部 AIグループ 主事、写真左)と、大道竜之介さん(第一研究開発部 AIグループ 主任、写真右)

美空ひばりさんの声をAIで直接創り出す

 VOCALOIDといえば「初音ミク」や「結月ゆかり」、「IA」などのキャラクターを思い浮かべる人も多いだろう。ヤマハが2003年に発表した、15年以上の歴史を持つ歌声合成ソフトウェアだ。

 VOCALOIDでは、歌声を合成する仕組みとして主に「素片接続」(そへんせつぞく)が使われている。これは基となる人間の声を録音し、それを切り貼り加工して歌声を作る技術だ。

 しかし、美空ひばりさんの声を新たに収録することはかなわない。過去の楽曲から音声を取り出して切り貼りするにも限界がある。そこで採用したのがDNNだ。もともとある波形から適切なものを探し出して切り貼りするのではなく、AIを使って歌声を直接創り出す方法のほうが、今回は適していた。

 開発したシステムでは、複数の学習モデルを組み合わせて歌声を合成する。与えられた楽譜を読み込んで、音程を決めるモデルや発音のタイミングを決めるモデルといった歌声の特徴を作るものと、それらを組み合わせてコントロールするモデルや、最終的な波形を合成するモデルなどを段階的に使う。素片接続とは大きく異なる技術だ。

photo

 学習は、GPUを搭載したマシンで時間をかけて行ったものの、合成はGPUを搭載していない一般的なノートPCを使って実時間の数倍程度の時間でできるという。

 ヤマハはこの、AIを使って音声合成する技術の総称を「VOCALOID:AI」としている。VOCALOIDと名前はついているが、現状はまだ研究段階で、製品としてのVOCALOIDにAIを使った歌声合成システムを適用するかどうかは決まっていない。

数十年前の音声が学習データに 音質のばらつきがネック

 音声を学習するための教師データは、レコード会社の日本コロムビアと、美空ひばりさんの息子から提供された。

 話声の音声は、生前の美空ひばりさんが仕事で家を空けるとき、自宅で待つ息子が寂しがらないように本を朗読したもの。約2時間分の音声が収録されているが、スタジオのような整った環境ではなく、自宅でカセットテープに録音された音声のため、音質は良くない。

 しかし、この音声は全て同じ環境で録音されていたのか、音質のばらつきがなかったため、学習は比較的しやすかったという。問題は歌声の方だった。

時代とともに変わる収録環境 「七色の声」も影響

 歌声の参考として日本コロムビアから提供された音源は、時間の経過で劣化しているものもあるが、もともとは収録スタジオで専門の機材を使って収録された商業レベルの音声だった。しかし、時代によって音声の収録環境が異なり、録音方法も変わっていったため、楽曲ごとに音質がばらついていたのだ。

photo 日本コロムビア

 美空ひばりさんがデビューした当時はアナログ機材での収録が一般的だったという。テープに録音するため、あとから音声を加工するのが難しく、はじめからエフェクトをかけて加工した状態で録音していた。しかし、昭和の終わりにはデジタル機材が登場。音声の加工はあとからいくらでもできるようになり、録音の段階ではそのままの自然な音を録るようになった。

 設備の違いだけでなく、美空ひばりさん本人の歌い方にも変化がある。デビューしたばかりの声と晩年の声では、声色にも歌い方の癖にも違いがある。また、「七色の声を持つ」ともいわれた美空ひばりさんは、曲調に応じた歌い分けも行っていた。演歌を歌うのとジャズやバラードを歌うのとでは、出てくる癖が違うのだ。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.