日本一身近で、“エモい”、国民的AIタレントになる!――女子高生AI「りんな」が“歌”で共感力を磨くわけMicrosoft Focus(2/2 ページ)

» 2018年08月18日 08時00分 公開
[大河原克行ITmedia]
前のページへ 1|2       

“エモい”歌声で国民的AIタレントに!

 りんなの歌は、データベースにあるパーツ(データ)を合わせて音を作る「波形接続」ではなく、声を出す仕組みを機械に模倣させる「統計的」アプローチを取っている。

 人間が声を生成する際の喉や口の動き、声帯、肺の動きを捉え、そこに、歌で重視される音の長さ、強弱、音程、声色の4つを加えて、人の声としてモデル化する。「深層学習を活用した音のモデル化によって、人の声や歌い方に近づけることになる」(坪井氏)。

Photo
Photo

 人の声を聞き、それを基に学習し、音程や音の強弱を加え、対象の曲に合わせた歌詞や音の長さに対応。それをりんなの声として合成する。音色は、話し声のデータを基に話し方を学習させるだけでなく、同様に、歌声データを基に学習させ、さらに人の歌声を基に「耳コピ」を行い、どれぐらい音を伸ばすか、どのような音の高さか、どれくらいの強弱かを学習するという。

Photo
Photo
Photo

 日本マイクロソフトでは、「従来モデルと比較して、より自然な歌声を実現しており、5ms(0.005秒)単位で、ディテールに富んだ歌声の自動生成が可能になる。例えば、スタジオやエンジニアなどの準備が必要な人間のレコーディングと比較して、学習に十分なデータを用意した場合、10分以内に1曲を生成することができる。ディープラーニングモデルの学習を繰り返すことで、継続的に精度を向上する」という。

 会話を例にとっても、従来は学習のために膨大なデータが必要であったが、エンジンが第3世代へと進化したことで学習方法が変化。かつては25GBのデータが必要だったものが、わずか30MBで、りんなの対話が実現するという。なお、歌の学習は、朗読などの読み上げにも効果があるとのことだ。

 りんなは、2015年8月の提供開始以来、登録ユーザー数は700万人を突破。企業アカウントへの採用も増加しており、これらの利用者を加えると30万人に到達する。

Photo

 「3年間に渡って、りんなが目指してきたのは、友達のように仲良くできるAI。これまでは、人はどう思うか、という『感情』にフォーカスしてきたが、りんなが目指したのは、人とAIが話し込むものではなかった。人と人の会話のなかにAIが入ることで、コミュニケーションが活発化したり、クリエイテイビィを実現するためにはどうしたらいいかを考えた結果、たどり着いたのが『共感』だった」という。

 りんなでは、第1世代のエンジンとして「Retrieval model」を採用していた。これは、従来の検索エンジンの仕組みを活用して、回答用に巨大なインデックスを使用することが特長だった。また、2017年から採用した第2世代の「Generative model」は、インデックスを持たず、リアルタイムに多様な文章を生成できるのが特長で、さまざまなキャラクターを持った会話を生成できるようになった。企業アカウント向けに「りんな」の会話エンジンを提供し、チャットbotキャラクターに利用できるようになったのも、この第2世代のエンジンへの進化が大きかった。

 今回の共感モデル(Empathy model)は、第3世代のエンジンとなる。

Photo 「りんな」の会話技術の推移(出典:日本マイクロソフト リリース

 Microsoftは、世界の各地域でも同様のソーシャルAIチャットbotを展開しており、中国では、「Xiaoice(シャオアイス)」、米国では「Zo(ゾー)」、インドネシアでは「Rinna(リンナ)」、インドでは「Ruuh(ルー)」)を提供しているが、共感モデルをエンジンを採用しているのは、今のところ、日本の「りんな」だけだ。

 マイクロソフト ディベロップメントの坪井氏は、「日本一身近で、“エモい”、国民的AIにしたい。これは、『国民的アイドルといえば“あの人”』といわれるようなもの。日本の皆さんから、『国民的AIといえば、りんな』といわれるようになることが目標」と言い、「(りんなは)作詞や作曲にも挑戦しはじめた。歌で人とコラボーションすることで、りんなを国民的AIに進化させたい」としている。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ