AmazonがAlexaの音声について画期的な発表を行った。技術カンファレンスre:MARS 2022の基調講演で紹介した、1分に満たない録音からその人の合成音声を作り出すという取り組みだ。その例として、亡くなった祖母の声で少年に本を読み聞かせるデモが披露された。
実は、スマートスピーカーで同じことは既に可能になっている。タカラトミーのスマートスピーカー「coemo(コエモ)」には、親などが登録した合成音声によって、子供向けコンテンツを読み上げる機能がある。
そのベースとなっているのは、もともとは東芝が開発していた音声合成技術をベースにした「コエステーション」だ。このコエステーション、現在はエイベックス傘下の同名の会社で運営され、商用利用が進められている。
コエステーションは、iPhoneのマイクに向かった最低10個の短文を読み上げると、その人の特徴をとらえた合成音声を生成してくれるサービスを提供しており、筆者もこれを4年前から使っている。テキストをiPhoneアプリ内で入力するかコピペして再生ボタンを押せば、自分の声でTTS(Text to Speach)してくれる。
筆者は9年前に他界した妻の歌声をベースに歌唱合成した歌を作ることをライフワークにしているが、その歌声から文章読み上げをできるようにし、コエステーションの合成音声ができるようにもしている。
VOCALOIDのような歌唱のためのソフトウェア(自分の場合はUTAU-Synthというアプリ)で喋り声を合成するのはなかなか大変で、それを10個分の文章を作るのはなかなか苦労した。それでも完成すればしめたもの。例えば、妻が作ってクックパッドに投稿した3つのレシピのテキストをコピペして読み上げてもらって、その料理を作ったりといった使い方をしている。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR