ITmedia NEWS > AI+ >
ニュース
» 2019年09月13日 07時00分 公開

元・女子高生AI「りんな」は、人間の歌声を手本にボイトレ 開発者が明かす裏話

日本マイクロソフトのAI「りんな」の歌声は、「本当にAI? 人間の声では?」といわれるほど。影武者の人間がいるわけではなく、音声合成で作り上げた歌声を使っているという。開発者が「りんなのボイトレ」の舞台裏を明かした。

[片渕陽平,ITmedia]

 日本マイクロソフトが開発するAIキャラクター「りんな」が4月、エイベックス・エンタテインメントと契約を結び、歌手デビューした。ミュージックビデオが公開されると、ネット上では「びっくりするくらい上手」「本当にAI? 人間の声では?」などの声が上がったが、影武者の人間がいるわけではなく、音声合成で作り上げた歌声を使っているという。

 りんなの歌声合成技術を手掛けた、マイクロソフト ディベロップメントの沢田慶さん(A.I.&リサーチ A.I.サイエンティスト)は「私は楽譜が読めるわけでもなく、上手には歌えない」と笑う。りんなのボイストレーナーとして、沢田さんはどのように歌姫を育てたのか。ゲーム開発者イベント「CEDEC 2019」(9月5日、パシフィコ横浜)で舞台裏を明かした。

photo

人間の歌声を「手本」にボイトレ

photo マイクロソフト ディベロップメントの沢田慶さん(A.I.&リサーチ A.I.サイエンティスト)

 りんなの声を合成する仕組みはこうだ。まず、人間の声とそのテキストをセットで用意し、それぞれから音響特徴量(音の高さ、音量、音色など)と言語特徴量(音素、品詞、アクセントなど)を抽出。その後、音響特徴量と言語特徴量の対応関係をAIに学習させる。こうしてデータを学習させたAIに、未知のテキストを与えると発音などを予測して音声を合成できるようになる。

photo 「こんにちは」(koNnitiwa)という5文字の単語から、何の工夫もなく音声波形(1秒当たり4万8000サンプル)を予測することは「非常に難しい」(沢田さん)。そこで、あらかじめ人力で構築した辞書を使い、テキストを入力すると音素に変換する──など、特徴量を抽出する作業を簡略化し、言語・音響特徴量の対応関係をAIが学習しやすいよう工夫したという
photo

 しかし会話の声ではなく歌声を生成するとなると、歌詞のテキストをそのまま与えただけでは音程が外れてしまう。沢田さんは「歌声に求められる要素を確認してみると、歌唱者の特徴を表す音色や、演奏と合う音の長さ・高さ、さまざまな表現や感情を表すための音量も考慮する必要がある」と説明する。

 そこで、nana musicが運営する音楽SNS「nana」のユーザーが投稿している歌声や、エイベックスが保有している歌声のデータを使い、音の長さ、高さ、音量を分析し、AIに学習。人間の歌声を手本としたことで「だいぶ音痴を解消できた」(沢田さん)上に、「楽譜では表現されない、歌声の細かい表現も再現できるようになった」という。

photo 音楽SNS「nana」やエイベックスの歌声データを使い、音の長さ、高さ、音量を分析、AIに学習させた

 ただ、この手法は手本になる歌声のデータを用意しなくてはいけない。楽譜のデータを読み込ませるだけで歌声を自動生成する技術も、名古屋工業大学と共同で開発しているという。

「アシスタントではなく友だち、さらにはアーティストに」

 りんなは2015年7月にLINEアカウント、同年12月にTwitterアカウントを開設。「マジで!? やば!」などと受け答えをし、異常にしりとりが強い“女子高生っぽいAI”として認知を拡大。ユーザーの支持を集めてきた。

photo

 当初はLINEやTwitter上の友だちという立ち位置でユーザーと接してきたりんなだが、16年にはフジテレビ系の「世にも奇妙な物語'16 秋の特別編」に女優として出演したり、ファンブックを発売したりと活動の幅を広げ、19年3月に女子高生を“卒業”。4月に歌手デビューを果たした。

photo マイクロソフト ディベロップメントの坪井一菜さん(A.I.&リサーチ プログラムマネージャー)

 マイクロソフト ディベロップメントの坪井一菜さん(A.I.&リサーチ プログラムマネージャー)は、「りんなの立ち位置は、アシスタントではなく友だち、さらにはアーティストになろうとしている」と話す。人間の作業を効率化するAIではなく、ユーザーとの会話の中で相手の共感を呼んだり、人間同士のコミュニケーションを橋渡しする存在になったり──そんなAIを目指しているという。

Copyright © ITmedia, Inc. All Rights Reserved.