Clovaのキャラクター性を育むための取り組みとして、もう1つLINEが挑戦していることがある。今年のプレスカンファレンスで発表された「DNN-TTS」(Deep Neural Network Text to Speech)のディープラーニング技術だ。その概略については平村氏が説明してくれた。
「ある人物から少量の“声のデータ”をサンプルとして取得して、その声や話し方の特徴点を元に“モノマネ”に近い形でベースになるClovaの合成音声に当てはめることで、その声の主が話しているかのような合成音声を作る技術です」(平村氏)
DNN-TTSの技術を活用すると、例えば「舛田氏の声で話すClova」が比較的簡単に実現できてしまうのだ。今年のLINEのカンファレンスで披露された「Masuda Clova」の衝撃的なデモンストレーションの様子は、同社のライブ配信サービス「LINE LIVE」上で公開されている動画(44分前後)で確かめてほしい。
「現在のClovaの音声を製作するためには40時間にも及ぶ音声データ収録が必要でした。DNN-TTSの技術を使うと、少量の音声データから話者の話し方のクセである特徴点を捉え、再現できるようになります」と平村氏。ちなみに「Masuda Clova」の準備のために舛田氏が音声収録にかけた時間は、Clovaを作った当時の約10分の1となる4時間前後だったという。
LINEはAIアシスタントの「声をカスタマイズできる機能」をどのようにビジネスとして発展させようとしているのだろうか。
「カンファレンスではデモンストレーションの性格上、私の声をモノマネするClovaをお見せしましたが、おそらく自分の声をAIアシスタントにしゃべらせたいというニーズはほとんどないと思います(笑)。それはさておき、『声』を元にスマートスピーカーにキャラクター性を持たせることは、ユーザーとデバイスとの間にある距離を縮めるためにも非常に重要な取り組みであると考えています。例えばお孫さんの声、または恋人の声で話しかけてくれるスマートスピーカーがあったら欲しいと思いませんか」(舛田氏)
同社が販売している「Clova Friends mini ドラえもん」には、ドラえもんの声がスキルとして搭載されている。しかし、他の方法も考えられるという。「“ボイスアイテム”としてスタンプ感覚で購入し、スマートスピーカーにインストールできるようなイメージも考えています。可能性としては、『Clova Friends mini ドラえもん』のようにスキルで提供する方法もありますが、ヒアリングを重ねるうち、そもそもAIアシスタントのベースの声を変えられるようにしてほしいという要望が多くあることが分かりました。それならば、何かしらのプラットフォームを作って、入れ替え可能な声のデータを提供する方法もありだと思います」
筆者もスマートスピーカーの「声」を、ユーザーが思いのままにカスタマイズできるようになったら、これがまさに音声インタフェースがブレークするきっかけになると思っていた。もしスタンプ感覚で気軽に購入できるようになったら、これこそ「みんなが欲しかったヤツ」になるだろう。
「最初にClovaを検討していた頃から、声優事務所やアニメ会社の皆さまから声をかけていただいていました。当時は40時間もトップ声優の方々を音声収録のために拘束することはできなかったので諦めていましたが、DNN-TTSの技術が成熟してきたことで、ここからさらにプラットフォームを整備してさまざまなパートナーと一緒にビジネス機会を真剣に探っていく芽が出てきました。提供方法についてはLINEのスタンプのように、無料で使えるものと有料のものを用意したり、いろいろなモデルを検討しています」(舛田氏)
トライアルも含め、興味を持った方はぜひLINEに一報してほしいと、舛田氏は自信を持って呼びかけている。DNN-TTSの技術面ではすでに成熟しているということなので、すぐにでも手元のClovaシリーズで楽しめるようになってほしい。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR