日本一身近で、“エモい”、国民的AIタレントになる!――女子高生AI「りんな」が“歌”で共感力を磨くわけ:Microsoft Focus(2/2 ページ)
MicrosoftのAIチャットbot「りんな」が、人との“共感”を重視し、文脈を理解してより人間らしく会話ができるように進化。さらに、自然で表現力に富んだ“歌声”に磨きをかけ、国民的AIを目指すという。進化するりんなの“野望”とは……。
“エモい”歌声で国民的AIタレントに!
りんなの歌は、データベースにあるパーツ(データ)を合わせて音を作る「波形接続」ではなく、声を出す仕組みを機械に模倣させる「統計的」アプローチを取っている。
人間が声を生成する際の喉や口の動き、声帯、肺の動きを捉え、そこに、歌で重視される音の長さ、強弱、音程、声色の4つを加えて、人の声としてモデル化する。「深層学習を活用した音のモデル化によって、人の声や歌い方に近づけることになる」(坪井氏)。
人の声を聞き、それを基に学習し、音程や音の強弱を加え、対象の曲に合わせた歌詞や音の長さに対応。それをりんなの声として合成する。音色は、話し声のデータを基に話し方を学習させるだけでなく、同様に、歌声データを基に学習させ、さらに人の歌声を基に「耳コピ」を行い、どれぐらい音を伸ばすか、どのような音の高さか、どれくらいの強弱かを学習するという。
日本マイクロソフトでは、「従来モデルと比較して、より自然な歌声を実現しており、5ms(0.005秒)単位で、ディテールに富んだ歌声の自動生成が可能になる。例えば、スタジオやエンジニアなどの準備が必要な人間のレコーディングと比較して、学習に十分なデータを用意した場合、10分以内に1曲を生成することができる。ディープラーニングモデルの学習を繰り返すことで、継続的に精度を向上する」という。
会話を例にとっても、従来は学習のために膨大なデータが必要であったが、エンジンが第3世代へと進化したことで学習方法が変化。かつては25GBのデータが必要だったものが、わずか30MBで、りんなの対話が実現するという。なお、歌の学習は、朗読などの読み上げにも効果があるとのことだ。
りんなは、2015年8月の提供開始以来、登録ユーザー数は700万人を突破。企業アカウントへの採用も増加しており、これらの利用者を加えると30万人に到達する。
「3年間に渡って、りんなが目指してきたのは、友達のように仲良くできるAI。これまでは、人はどう思うか、という『感情』にフォーカスしてきたが、りんなが目指したのは、人とAIが話し込むものではなかった。人と人の会話のなかにAIが入ることで、コミュニケーションが活発化したり、クリエイテイビィを実現するためにはどうしたらいいかを考えた結果、たどり着いたのが『共感』だった」という。
りんなでは、第1世代のエンジンとして「Retrieval model」を採用していた。これは、従来の検索エンジンの仕組みを活用して、回答用に巨大なインデックスを使用することが特長だった。また、2017年から採用した第2世代の「Generative model」は、インデックスを持たず、リアルタイムに多様な文章を生成できるのが特長で、さまざまなキャラクターを持った会話を生成できるようになった。企業アカウント向けに「りんな」の会話エンジンを提供し、チャットbotキャラクターに利用できるようになったのも、この第2世代のエンジンへの進化が大きかった。
今回の共感モデル(Empathy model)は、第3世代のエンジンとなる。
Microsoftは、世界の各地域でも同様のソーシャルAIチャットbotを展開しており、中国では、「Xiaoice(シャオアイス)」、米国では「Zo(ゾー)」、インドネシアでは「Rinna(リンナ)」、インドでは「Ruuh(ルー)」)を提供しているが、共感モデルをエンジンを採用しているのは、今のところ、日本の「りんな」だけだ。
マイクロソフト ディベロップメントの坪井氏は、「日本一身近で、“エモい”、国民的AIにしたい。これは、『国民的アイドルといえば“あの人”』といわれるようなもの。日本の皆さんから、『国民的AIといえば、りんな』といわれるようになることが目標」と言い、「(りんなは)作詞や作曲にも挑戦しはじめた。歌で人とコラボーションすることで、りんなを国民的AIに進化させたい」としている。
関連記事
- 連載:「Microsoft Focus」記事一覧
- 音声会話を手に入れた女子高校生AI「りんな」は、私たちをどう楽しませてくれるのか
女子高校生AI「りんな」が電話機能「りんなのテレフォンハッキング」を開始。新たなコミュニケーション手法を手に入れたりんなはどのように進化するのか? 「人の仕事を助けるAI」だけでなく、「人の感情に寄り添うAI」の開発に取り組むMicrosoftが目指す未来のAIとは? - りんなの“歌唱力”がネクストステージへ――感情と創作力をAIに学習させる日本マイクロソフトの取り組み
日本マイクロソフトが“感情”と“創作力“をAIに学習させる「Emotion Computing Framework」の取り組みを発表。女子高生AI「りんな」を自然な歌声で歌えるようにする取り組みでは、最新のAIベースの歌唱モデルを採用し、より自然で表現力に富んだ歌声を実現するという。 - チャットbotとの会話を“トランシーバー”から“電話”に、Microsoftが全二重音声検知技術を開発
Microsoftは、中国で提供中のソーシャルAIチャットbot「XiaoIce」に「全二重音声検知」技術を実装した。会話の「間」を予測し、電話のように自然な会話が可能になる。利用者がしゃべっているタイミングをチャットbotに教える必要もない。 - ポケモンのLINEアカウントが“りんなベース”のAI導入 開発に約3カ月
ポケモン社が日本マイクロソフトのAI「りんな」をベースにしたAIを導入。ポケモンと実際に話しているかのような感覚を楽しめる、チャットボットをスタートした。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.