合成音声で課題になったのが、抑揚をつけたり感情表現を伴ったりして読み聞かせできるようにすること。最初は、一文章ごとに抑揚をつけて読めるようにしたが、1つのコンテンツをつくり上げるのに莫大なコストがかかることから断念する。
試行錯誤の末にたどり着いた解決方法は、ナレーターに情感たっぷりに読んでもらった音声データに、「コエステーション」でつくった合成音声の特徴を当てはめるというもの。ナレーターが読み上げた音声の抑揚や感情表現を生かすことにした。
「合成音声を子どもが気持ち悪いと思ってしまわないか、不安でした」と振り返る五島さん。調査で子どもたちが拒否反応を示すようであれば、開発を中止するつもりでいた。
調査は数千人規模の定量調査と定性調査を実施。定性調査では10組ほどの家族の協力を得て、1週間にわたりナレーターが読んだお話と音声合成技術でつくった家族の合成音声で読んだお話を子どもに聴き比べてもらった。
その結果、子どもたちは家族の合成音声で読んだものに対し、目立った拒否反応を示さなかった。家族の声だと分からなかった子どももいたが、ナレーターの声より家族の合成音声のほうが「好き」と回答した子どが断然多かった。
声や録音環境によっては、似せづらくなることがあるという。ベビー・エデュテイメント事業部マーケティング課の廿樂(つづら)花蓮さんは次のように話す。
「ご自身のスマートフォンで声を録音し、録音した音声を使って合成音声をつくるので、精度が録音時の環境の影響を受けます。子どもの声とかが入ってしまうとノイズになりますので、なるべく静かな環境で声を登録していただきたいです」
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR注目記事ランキング