ITmedia NEWS >
特集
» 2018年06月08日 14時19分 公開

「あなたに似た声」、なんのために? (1/2)

あなたは自分の声のコピーを持ってますか? わたしは2つ持ってます。

[松尾公也,ITmedia]

 みなさんは自分の声そっくりにしゃべる合成音声をお持ちだろうか? 筆者は2年4カ月前から自分の声「松尾P」を使えるようになっていて、たまに記事で使っている。ちょっとした自慢だ。

 ところがこの先行者特権が失われようとしている。4月17日に東芝デジタルソリューションズが公開したモバイルアプリ「コエステーション」が原因だ。自分の観測範囲でもかなりの人が自分の合成音声「コエ」を持ち始めている。コエステーションは、自分の声で10個の文を読み上げるだけで自分の声を基にした「コエ」ができて、TTS(Text to Speech)による発声をアプリ内でできる。しかも無料。これはとんでもない価格破壊だ。

 これがどのくらいの価格破壊かというと、既存の音声合成企業が提供しているカスタムボイス作成では40万円(AITalk Custom Voice)、36万円(ボイスター ライト版)と、簡単に手を出せる価格ではない。

 筆者の声をモデル化した「松尾P」は、HMM(隠れマルコフモデル)を使った音声合成だ。オープンソース版のTTSであるOpen JTalkと、それを商用化したCeVIOがこの技術に基づいている。CeVIOはTTSだけでなく、歌唱合成もできて、故・三波春夫の歌声を合成することもできる。歌声合成のオープンソース版はSinsyで、筆者の歌声(英語のみ)を合成して歌わせることもできる。

HMMを使った音声合成Open JTalk

 このOpen JTalkを元にしたWindowsアプリにSHABERUというものがある。無料で様々な音声を使ってしゃべらせることができるアプリだ。作者のアキヒロさんはOpen JTalkで用いられているhtsvoice形式の音響モデル作成を無料で提供していて、筆者は自分で収録したサンプル文をアキヒロさんに送り、データベース化作業をアキヒロさんがやってくれたのだ。

 通常、特定の声の音声合成モデルを作成するためには、音素の組み合わせを網羅したたくさんの文章を読み上げ、そこからモデル化する。よく使われている例文はATR503音素バランス文というもの。htsvoice構築にも通常はこの文章を用いる。アキヒロさんは独自のバランス文を用いて、200程度の文章で可能にしているが、それでもなかなかの作業だ。

 htsvoiceの作成にはLinuxと様々なツールをインストールし、そのシステム構築は大変だ。やり方を自分でも模索してみたが、独力でできる気はまったくしない。

コエステーションはいきなりできたわけではない

 そしてコエステーションである。なぜいきなり東芝子会社がこんな技術をと思うかもしれないが、東芝は音声合成で長い歴史を持つ老舗なのだ。2001年に終了してしまったLaLaVoiceというTTSのパッケージソフトを持ち、dynabook(当時はDynaBook)にバンドルしていた。LaLaVoiceには簡易的な歌声合成機能もあり、登場時期はVOCALOIDよりも早かった。

 LaLaVoiceが終了した後で登場したToSpeakは現在、東芝デジタルソリューションズのクラウドAIであるRECAIUSで使われている音声合成エンジンと位置付けられている。人に似せた声でしゃべるカスタムボイス機能は実証済みだ。

 2016年に人気パーソナリティーである小林克也さんが録音した数時間分の音声から作り出された合成音声「コバカツ君」がそれだ。このときはRECAIUS音声合成ソフトサービスとして紹介されている。さすがスネークマンだけあって日本語だけでなく英語も流暢にしゃべり、歌もうたう。

photo 小林克也さんの声から作り上げた「コバカツ君」はFM NACK5の放送でも使われた

 コエステーションはこうした手間のかかるカスタマイズをiOSアプリでやってしまうというところが画期的だ。iPhoneかiPadと付属のEarPodsイヤフォンがあれば、自分の声に似た合成音声を作り、実際に使うことができる。それも最初は10の文を読み上げるだけでよい。

 Open JTalkの場合は503、少なくとも200以上の文を安定した状態で読み上げる必要があった。しかもその処理には複数のアプリを組み合わせたLinuxをぶんまわす必要がある。コエステーションはiOSアプリの中で読み上げると1文ずつサーバに送られる。10文を読み上げると第1段階「コエレベル1」クリアだ。

 コエレベルは最高で5。コエレベル1は10文、レベル2は50文、レベル3は100文、レベル4は150文。筆者は200文を読み上げ、最終段階のレベル5に到達している。ここまでくると、品質はかなり高く、少し荒削りなところもあるOpen JTalkより柔和で本人に近く聞こえるようだ。

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.