ITmedia NEWS > 企業・業界動向 >

謎の言葉「ピョートル大帝のニョッキ」 バーチャルアナウンサーの声、収録の舞台裏AI MEETUP 2

» 2018年09月21日 18時54分 公開
[片渕陽平ITmedia]

 「ピョートル大帝のニョッキ」――声優の寿美菜子さんは、そのような“意味がよく分からない言葉”を一定のトーンで収録し続けた。ソニーが開発するバーチャルアナウンサー「沢村碧」の音声を合成するためだ。

photo ソニーが開発するバーチャルアナウンサー「沢村碧」。2016年に実証実験を行い、昨年からは「アバターエージェントサービス」として提供している

 沢村碧は、ソニーが昨年8月に提供を始めた「アバターエージェントサービス」のキャラクター。ニュース原稿をテキストで入力すると、音声合成エンジンが自然な発話に変換し、CGで作成したキャラクターの表情と連動して読み上げる。

photo ソニー・ミュージックコミュニケーションズ(SMC)の松平恒幸さん

 ソニー・ミュージックコミュニケーションズ(SMC)の松平恒幸さんは「特殊な収録だった」と話す。9月19日に都内で開かれたイベント「AI MEETUP 2」で、寿さん、松平さんが収録の舞台裏を振り返った。

謎の言葉「ピョートル大帝のニョッキ」

 松平さんが「ソニーがフルチューンした当代最強の合成音声」と自信を見せる沢村碧は、寿さんの声がベース。「声色の美しさだけでなく、ニュースキャスターらしい知的な雰囲気もある」(松平さん)のが魅力だ。

 寿さんは「音声合成のための収録は普段のアフレコとは違い、感情をどちらかというと抑えながらも“ロボットの声”にならないように、一定のトーンで録り続けた。読み上げる原稿もきちんとした会話にはなっていなかった。(そんな音声データから)ナチュラルに会話できる合成音声ができるとは」と驚く。

 寿さんが「何だ?」と疑問を抱いたのは「ピョートル大帝のニョッキ」というせりふだった。一般に合成音声は、録音した声から特徴を抽出し、再合成して作られる。そのためには、あらゆる発音やイントネーションの特徴を網羅する必要があり、ナンセンスな文章になることがある。ただ、日本語の文章として成立していなければイントネーションの参考にならないため、意味は通じるようにはしているという。

 松平さんは「(合成音声は)誰の声でも作れると思われがちだが、誰の声で作るかが重要だ」と話す。収録時、一定のトーンを保ちながら話し続けてもらう必要があるためだ。収録した声のクオリティー次第で、音声合成用に声質をチューニングするのに時間がかかってしまう場合もある。「寿さんはすごくうまかった」

 音声の収録時間は「さまざまな要因で変わってくる」。バーチャルアナウンサーの場合は、高音質が求められたこともあり、約5時間の収録を4回行った。一方、スマートフォン向けの合成音声などは「スペックを落とすケースがほとんど」で、半日程度で収録可能という。

photo

ユーザーインタフェースが「対話」になる時代に

 こうして完成した合成音声を使うことで、キャラクターに自由なせりふをしゃべらせられる。松平さんは、音声合成と組み合わせがよいテクノロジーとして「キャラクターAI」(対話型AI)を挙げる。対話型AIは、ユーザーの質問内容を理解し自動返答するといったものだ。

 SMCの松平さんは「音声合成技術や対話型AIを活用したサービスが続々と登場している」と話す。AIが搭載されたクルマや、スマートスピーカーなどIoT製品が好例だ。

photo 松平さんらは、これまでもアニメ「冴えない彼女の育てかた」のヒロイン・加藤恵との会話が楽しめるアプリ「一択彼女 加藤恵」などを手掛けてきた

 同じくソニー子会社のソニー・ミュージックエンタテインメント(SME)は、コミュニケーションに特化したAI「PROJECT Samantha」(プロジェクト・サマンサ)の開発を進めている(関連記事:「エロい目で見んじゃねよ、このクズ」 26万人を罵倒したAI「罵倒少女」から考える「飽きない対話AI」の作り方 )。

 「あらゆるもののユーザーインタフェース(UI)が『対話』になっても、一定のことしか答えてくれないとなると、会話のハードルは高くなる。天気を教えてくれるエージェントであっても、それ以外のことにも反応できれば、ユーザーは愛着がわく。既存の情報サービス、インフラが対話をUIにしていく時代に、キャラクターによる対話は生かされてくるだろう」(松平さん)

Copyright © ITmedia, Inc. All Rights Reserved.