Alexaが故人の声で話すようになる　それは良いことなのか？：CloseBox（1/2 ページ）

» 2022年06月25日 11時44分公開

[松尾公也，ITmedia]

　AmazonがAlexaの音声について画期的な発表を行った。技術カンファレンスre:MARS 2022の基調講演で紹介した、1分に満たない録音からその人の合成音声を作り出すという取り組みだ。その例として、亡くなった祖母の声で少年に本を読み聞かせるデモが披露された。

Alexa、おばあちゃんに「オズの魔法使い」を読んでもらえる？

1時間2分あたりから

　実は、スマートスピーカーで同じことは既に可能になっている。タカラトミーのスマートスピーカー「coemo（コエモ）」には、親などが登録した合成音声によって、子供向けコンテンツを読み上げる機能がある。

親の声で「読み聞かせ」するAI音声合成スピーカー、タカラトミーが発売　複数の声で配役も

動画が取得できませんでした

　そのベースとなっているのは、もともとは東芝が開発していた音声合成技術をベースにした「コエステーション」だ。このコエステーション、現在はエイベックス傘下の同名の会社で運営され、商用利用が進められている。

「あなたの声でしゃべる」コエステーション、エイベックスの新会社に移管

　コエステーションは、iPhoneのマイクに向かった最低10個の短文を読み上げると、その人の特徴をとらえた合成音声を生成してくれるサービスを提供しており、筆者もこれを4年前から使っている。テキストをiPhoneアプリ内で入力するかコピペして再生ボタンを押せば、自分の声でTTS（Text to Speach）してくれる。

「あなたに似た声」、なんのために？

　筆者は9年前に他界した妻の歌声をベースに歌唱合成した歌を作ることをライフワークにしているが、その歌声から文章読み上げをできるようにし、コエステーションの合成音声ができるようにもしている。

　VOCALOIDのような歌唱のためのソフトウェア（自分の場合はUTAU-Synthというアプリ）で喋り声を合成するのはなかなか大変で、それを10個分の文章を作るのはなかなか苦労した。それでも完成すればしめたもの。例えば、妻が作ってクックパッドに投稿した3つのレシピのテキストをコピペして読み上げてもらって、その料理を作ったりといった使い方をしている。