ITmedia NEWS > STUDIO >
ITmedia AI+ AI活用のいまが分かる

“ふくよかキャラ”を引っ張り奏でるオペラAI「Blob Opera」 美しい音色の裏に、開発者の試行錯誤あり遊んで学べる「Experiments with Google」(第4回)

» 2022年03月31日 07時30分 公開
[佐藤信彦ITmedia]

 「Experiments with Google」は、Googleが人工知能(AI)や拡張現実(AR)といった最新技術の可能性を示すために、実験的な応用例を紹介するショーケースだ。膨大なコンテンツを公開しており、その多くはスマートフォンやPCで試せる。

 この連載では、多種多様な応用例の中から興味深いものをピックアップ。実際に遊んだ体験レポートを通して、裏側にある技術の解説を行っていく。

 読者の皆さんも、ぜひ自分の手で試しながらその仕組みを学んでもらえたらうれしい。きっと、最新技術の魅力に気付くはずだ。

誰でもオペラ歌手になれる? 「Blob Opera」をご紹介

 連載4回目では、マウス操作だけで画面上のキャラクターをいじって荘厳なオペラを奏でられる「Blob Opera」で遊んでみる。これは、美術や音楽などさまざまな芸術に触れられる「Google Arts and Culture」の取り組みの一貫だ。

photo AIがオペラを歌うBlob Opera(出典:Google)

 AIは、人間のさまざまな動作をまねることが得意だ。例えば、本人の筆跡とよく似た文字画像を作る技術もあれば、本人そっくりの偽動画を作れるディープフェイクのような技術もある。

 今回紹介するBlob Operaは、そうした“物まねAI”の歌声版。人間の歌をAIで再現できると示すために開発されたものだ。PCやスマートフォンのWebブラウザ上で動くWebアプリケーションで、誰でも気軽に試せる。

 機械×歌声といえば、「初音ミク」に代表されるボーカロイドを思い出すが、Blob Operaはそこまで凝った音楽は作れない。ボーカロイドはメロディと歌詞を入力すれば人間そっくりに歌ってくれるが、Blob Operaはただ「アー」「ウー」といった歌声を発声するだけ。

 その代わり、操作はシンプル。画面に登場する「Blob」(ブロブ)という「ふくよかさん」といった形容がピッタリのキャラクターをドラッグして引っ張るだけで、オペラ歌手が歌うような美しいハーモニーをリアルタイムに作れてしまう。

photo ブロブを引っ張って操作(出典:Google)

 とにかく、簡単にオペラを演奏できることが楽しい。遊びながらAIの応用方法を体験しつつ、音楽という文化に触れられる「Google Arts and Culture」らしい取り組みだ。

Blob Operaの紹介ビデオ(出典:Google)

ウットリするほど美しいハーモニーを、簡単な操作で奏でよう

 早速、体験してみよう。Webブラウザで「LAUNCH EXPERIMENT」を開くと、Blob Operaが起動する。Webブラウザに読み込まれるのを待って、「テストを実行」を押そう。

 Experiments with Googleのコンテンツは、日本語に対応していなかったり、対応していても翻訳がおかしかったりするものが多い。その点、Blob Operaは丁寧に作られていて、説明やボタンの日本語がとても自然で使いやすい。

ブロブたちを歌わせる練習

 Blob Operaを始めると、上からボヨヨンと1体だけ落ちてくるブロブ。これはバス(男性の低音域)を担当するブロブで、歌い方の練習に付き合ってくれる。

 バスブロブをマウスでクリックすると、一瞬だけ声を出す。マウスのボタンを押したままにすれば、いつまでもロングトーンで歌い続ける。人間と違って、ブレスなど必要ない。それにしても、良い声だ。

 音程を変えるには、上下にドラッグすればよい。出せる音の高さは、下からE、F♯、G♯、A、B、C♯、D、E、F♯、G♯、A。つまり、なじみのあるハ長調(Cメジャー)でなく、イ長調(Aメジャー)で歌う。

 バスブロブをいじっているうちに、次のテノール(男性の高音域)担当ブロブが現れる。テノールブロブの音程を上下ドラッグで変えると、バスブロブが自動的にハモって面白い。

 テノールブロブでは、歌う母音の操作を練習する。マウスを左にドラッグすれば「a」で歌い、そこから右へ動かすにつれ発音が「e」「i」「o」「u」へ変わっていく。

 3番目は、メゾソプラノ(女性の中音域)ブロブ。操作方法は同じで、一番高音の歌手(つまり、ここではメゾソプラノブロブ)が主旋律を歌う。テノールとバスのブロブは、メゾソプラノブロブの音程と母音に合わせてコーラスをつける。

 最後にソプラノ(女性の高音域)を担当するブロブが現れ、各ブロブの頭上にミュート用のスピーカーボタンが表示される。例えば、リードシンガーに独唱させたいなら、ほかのブロブのミュートボタンを押せばいい。

 これで練習は終わりだが、素晴らしい歌声で作られるコーラスが十分堪能できる。しかも、深い残響が美しく、教会でオペラを聴いているような荘厳さまで感じられた。歌っているブロブの姿が愛嬌あるのもポイントだ。

ブロブ4体を操作して練習(撮影:筆者、出典:Google)

上手に演奏できるかな? 録画してシェアもできる

 練習だけでも楽しめるが、本気の演奏をしてみる。画面左下の「録音」ボタンをクリックすると、ブロブたちの歌を録音できる。

 ところが、実際に曲を歌わせるのはなかなか難しい。息継ぎをしているかのように音を切ろうとしてブロブを放すと、ブロブの高さが元に戻ってしまい音程を調整しにくい。しかも、音程が表示されないので、狙った高さ音を出すのに苦労する。正しくメロディを奏でられるように、息継ぎ風の演奏は諦めて、最初から最後までドラッグし続けることにした。

 操作できるのは1つのブロブだけなので、主旋律を奏でるだけで精いっぱい。もちろん、和音の制御は不可能だ。それでも、自動的につけられるコーラスは美しく、オペラ歌手のステージを見ているよう。

 満足のいく演奏ができたら、録音を全世界に公開しよう。さぁ、何の曲を演奏したか分かりますか。

「かえるのがっしょう」に聞こえるかな(撮影:筆者、出典:Google)

ブロブと世界旅行に出よう! 都市ごとに違う曲を楽しめる

 Blob Operaには、あらかじめ録音された演奏を流す機能もある。画面右下の「地球ボタン」をクリックすれば、ブロブたちを世界ツアーへ連れて行けるのだ。

 選べるのは、ロンドンとニューヨーク、メキシコシティ、ソウル、ケープタウン、パリの6都市。都市を切り替えると、ロンドンだったらビッグベン、ニューヨークだったらタイムズスクエアというように、各都市の名所が背景になる。ブロブの色や体形も、都市によって違う。

 さらに、都市ごとにその国にちなんだ曲が数曲ずつ用意されている。ニューヨークは「聖者が街にやってくる」、ソウルは「アリラン」といった具合だ。

 早速、都市と曲を選んで再生してみよう。どの曲もメロディが美しく、曲に合ったコードが付けられている。ブロブ1体のマウス操作では不可能な演奏なので、各ブロブの歌い方をデータで与えたのだろう。個人的には、ロンドンの「ハレルヤ」、ニューヨークの「サマータイム」、パリの「ジムノペディ第1番」が気に入った。

 再生中でも、好きなブロブを操作して自由に歌わせることも可能だ。主旋律と違うメロディ(オブリガート)を合わせるのも楽しい。

一番気に入ったのは「サマータイム」(撮影:筆者、出典:Google)

ブロブと人間の共演だってできる

 ブロブたちは、人間とのセッションも上手にこなす。2021年5月に開催された開発者向け会議「Google I/O 2021」で、Tune-Yardsと共演したのだ。

photo Tune-Yardsと共演(出典:Google)

 ゆったりしたメロディ以外は合わないと思ったが、ビートのきいたスピード感あふれる演奏にも素晴らしいコーラスをつけてくれる。(メイキング映像はこちら

Tune-Yardsとのセッション。(出典:Google)

オペラ歌手4人の歌声を学習したニューラルネットワーク

 Blob Operaは、あらかじめ録音した人間の声をまねして歌えるAIシステム。機械学習の一種である、畳み込みニューラルネットワーク(CNN)という技術がベースになっている。

 この技術は、システムにあるデータ群を与えることで、そのデータの特徴を学習させられる。十分なデータを用意できれば、その特徴にピッタリ合った出力が得られる。説明するだけでは簡単に見えるが、うまく学習させることは難しく、職人芸的なパラメータ調整や試行錯誤が必要で、開発者の腕の見せ所でもある。

 Blob Operaの場合は、バス、テノール、メゾソプラノ、ソプラノのプロ歌手4人に協力してもらい、機械学習モデルを作った。学習させる際には各歌手の歌声を聞かせるわけだが、16時間もかかったそうだ。(解説ビデオはこちら

photo 歌手4人の歌声を学習(出典:Google)

 こうして機械学習モデルは、オペラ独特の歌い方を習得。音程や母音を指定されると、それぞれの各歌手に似た声で歌えるようになった。生み出される歌声は、無味乾燥なコンピュータが合成したものと信じられないほど美しい。

 Blob Operaは、AIの可能性を示すことに見事成功したコンテンツといえるだろう。

Copyright © ITmedia, Inc. All Rights Reserved.