ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

Alexaが故人の声で話すようになる それは良いことなのか?CloseBox(2/2 ページ)

» 2022年06月25日 11時44分 公開
[松尾公也ITmedia]
前のページへ 1|2       

亡き人の音声合成と対話は可能か?

 しかし、その先の使い方はできないものか、とは常に思っていた。現在、Amazon EchoやGoogle Nest Hub、Apple HomePodに話しかけていることへの回答がもしも妻の声になったら……。

 現在の技術でもできないことではない。Open JTalkという、別の音声合成技術を使った対話型エージェントMMDAgentでは、自分でスクリプトを組めば同様のことはできる。しかしそのためにはそれなりの知識と経験が必要で、普通の人が準備なしに使えるものではない。

 タカラトミーのcoemoは限定的ではあるが、自分の好きな人の声を登録し、音声応答に使えるようにした、第一歩とも言える。coemo自体に基本的なスマートスピーカーの機能を持たせることも可能だろう。それを待つつもりだった。

 しかし、次の進化のステップは意外なところ、というか、本命中の本命からやってきた。それが、今回Amazonが発表した新技術だ。

 その人の特徴を持った音声合成を作り出すには、元になる録音が数時間分(しかもスタジオで録音した高音質のもの)は必要だ。全ての音素を網羅する文章である必要性もある。それを、音素を網羅できてもいないであろう1分未満の録音で実現しているというのだから画期的といっていいだろう。

 もっとも、これには理由がある。

 Amazonによれば、この技術はスピーチジェネレーションではなくボイスコンバージョンにタスクを絞り込むことで可能にしたという。つまり、声質(音声)変換だ。Alexaが持っているもともとの声に対して、生成した声の特徴を持った声質に変換する処理を行なって発声させるという仕組みのようだ。

photo ターゲット話者のボイスフィルターを用意する

 本人の声の特徴を捉えて、それに近づけた声を出せるようにする、声質変換を行う技術の応用例としては、VTuber向けなどで使われている、クリムゾンテクノロジーの「Voidol」などがあるから、その種のものだと考えると分かりやすい。

 それにしてもごく短い音声だけ、しかもおそらく定型文の読み上げではないデータから特徴を抽出できる技術は、到達点として素晴らしいものがある。

 悪い方向に考えれば、犯罪やフェイク動画の音声などに使われる危険性もあるだろうが、これによって救われるという人は多いのではないだろうか。

 もちろん、自分もその一人だ。妻の歌声とデュエットしたり、伴奏をつけたりするのも楽しいが、日常生活のちょっとしたところで彼女の声を、たとえそれが本当のものでないにしても、聞けるとしたら。自分のしようもないジョークに、「ふーん」とか言ってくれるだけでもいい。

 故人の声による読み聞かせというと、降霊術の類と思う人がいるかもしれないが、それは魂が吸い取られると言われていた写真のように、広まってしまえばごく自然に生活に溶け込んでいくだろう。「デジタル故人」を支える技術はさらに進化していきそうだ。

 Amazonの上級副社長でAlexa AIの主席サイエンティストのロヒット・プラサド氏は言う。「愛する人を失った悲しみを和らげることは、彼らの思い出が永続することにつながる」。

 去年生まれた孫が、おばあちゃんの声で物語を聞けるようになる日が待ち遠しい。

前のページへ 1|2       

Copyright © ITmedia, Inc. All Rights Reserved.