高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表

» 2021年06月18日 13時30分公開

[谷井将人，ITmedia]

　スマートフォンやスマートスピーカー、銀行ATM、券売機など、あらゆる場面で合成音声が使われるようになって久しい。近年では特に機械学習技術を活用した音声合成システムの製品化やサービス化が進んでいる。

　音声合成の研究開発や製品化を行う際には、学習素材として大量の音声が必要だ。しかし学習に適した上質な音声ファイルはネット上にもあまりない。いまだに素材を集めにくい状態にある。

　これまでは研究開発用の素材を得るため「音素バランス文」と呼ばれる台本を用意し、それをアナウンサーや声優などに読み上げてもらい、まとまったデータを取得していた。

　「しかし、これまでの音素バランス文には『使用料』『ライセンス』『台本の読みにくさ』3つのハードルがありました」

　そう話すのは明治大学で音声合成の研究をしている小口純矢さんだ。音声合成ソフトの販売を手掛けるSSS（仙台市）と小口さんが所属する明治大学、九州工業大学は6月17日、新規開発した音素バランス文を集めた「ITAコーパス」を一般公開した。

SSSが企画し、明治大学と九州工業大学が音素バランス文やデータ作成をサポートした

　小口さんによると、ITAコーパスは既存の音素バランス文が抱えていた3つのハードルを取り除くために開発したものだという。

既存の音素バランス文が抱えていた3つの課題

　研究開発の場面でよく使われる音素バランス文としては「ATR503文」「声優統計コーパス」「JSUTコーパス」などが代表的だ。

　これらは、新聞や雑誌、Wikipediaなどから文章を集めてまとめたもので「あらゆる現実を全て自分のほうへねじ曲げたのだ」といった文章を数百から数千個収録している。

　ただ文章を集めるだけではない。日本語で使われる「a」「k」といった音素を全て含むのはもちろん「ak」「sa」など2つの音素の組合わせ、「asa」「des」など3つの音素の組み合わせもできる限り含む必要がある。

　音素バランス文という名前の通りバランスが大切で、それぞれの音素や組み合わせの出現回数が偏らないようにするなど、緻密な計算を重ねて設計している。

　これらの音素バランス文は以前から広く使われてきたが、課題も3つあった。

　一つ目が使用料の問題だ。ATR503文の読み上げデータ集は国際電気通信基礎技術研究所（ATR）が発売している商品で、価格は読み上げ音声付きのデータで数十万円に上る。小口さんによると「10年ほど前は無料のコーパスがなく、ATRからデータを買って研究開発に使っていました。コストがかかるのはもちろん、研究所などで独自に収録した読み上げ音声の公開もしにくい仕組みでした」という。

　そこで登場したのが無料の声優統計コーパスやJSUTコーパスだ。声優統計コーパスは声優やアナウンサーの読み上げ音声約2時間、JSUTは女性の読み上げ音声を約10時間収録したデータも無償公開。研究開発のハードルになっていた使用料をなくした。

　二つ目の課題がライセンスだ。声優統計コーパスとJSUTコーパスには「CC-BY-SA」というライセンスが付いている。CCは国際的非営利組織「クリエイティブ・コモンズ」の略。同団体はインターネット上の著作権ルールを提案し、共通で使えるライセンス表記「CCライセンス」を公開している。

　CC-BY-SAは「この作品を使う際は原作者の氏名や作品タイトルを表示すること。また、二次著作物を公開する場合は同じライセンスを付けること」という意味になる。CC-BY-SAで公開された音素バランス文を読み上げて音声にした場合、リリースする際には原作者名などを明記したうえでCC-BY-SAライセンスを付けないといけない。

　原作者名の表示とライセンスの継承そのものは悪いことではない。しかし例えば「作った音声合成ソフトには原作者表示を義務付けたくない」と思ってもできないなど、自由度が下がるデメリットがある。

　三つ目の課題が読みにくさだ。音素バランス文は音素や組み合わせをできる限り網羅する関係で、収録する文章量が多いうえ、難読地名のような単語も複数出てくる。プロのアナウンサーなどを呼んでも、収録に半日から数日かかる場合もあるほどの量の難しい台本では、データを増やすのにも一苦労する。

　しかし、文章量や難読単語を減らせば網羅できる音素の組み合わせが減ってしまうため、ひと工夫が必要になる。

3つの課題を解決する「ITAコーパス」

　これらの課題を解決するため、SSSは音素バランス文の新規開発を企画。2020年7月にクラウドファンディングで目標額の261％もの資金を集め、明治大学と九州工業大学の協力の下、音素バランス文の開発に乗り出した。

　ITAコーパスは青空文庫などから424文を集め、音素と組み合わせの出現率などを調整したデータ集で、使用料は0円。ライセンスはパブリックドメインとした。

　誰でも無料で使え、著作権を放棄しているためITAコーパスという作品名を表記する必要もない。台本を使って収録した音声の公開も自由で、二次著作物のライセンスも自由に定められる。

　読みやすさを確保するため台本は2部構成にした。前半の100文は日本語の音素を最低限網羅するための台本、後半の324文は音素の組み合わせを増やすための台本だ。

　424文というのは、声優統計コーパス（100文）より多くATR503文より少ない。ITAコーパスは100文と324文に分けたことで、声優統計コーパスのように少ない文章で簡単に収録することも、ATR503文のように十分なデータを取ることも可能な設計にしている。

　時間があり、データ量を増やしたい場合は後半まで、収録時間に限りがある場合は最低限の100文だけを読み上げるといった融通の利かせ方ができる。

　難読単語は文章中に無理やり入れるのではなく、1単語だけ切り出して読みやすさを向上させた。その分、ATR503文に比べると組み合わせの網羅率や偏りの面で少し劣るという課題もあるという。

　「ITAコーパスは読みにくさとライセンスの問題をクリアしているため、これから徐々に利用が増えていくと思います」（小口さん）

　ITAコーパスは今後、研究者はもちろん趣味で音声合成を研究している人にも使われていく可能性がある。小口さんによればシンプルな音声合成の他にも、口を映した無音の動画からせりふを推測して音声化するといった、音声と別の媒体を組み合わせた「マルチモーダル音声合成システム」の開発など、活用の幅が広がる見込みだという。

19歳の学生社長が音声合成サービス開発、3日でユーザー5万人　AIの勉強はWeb授業とインターンで
19歳の大学生がAIベンチャーを立ち上げ、音声合成サービス開発。ユーザーは3日で5万人以上が集まった。AIの勉強はWeb授業やインターンで学んだというが、どんな背景でサービスの開発に至り、今後どのように展開していくのか。
商用OK、無料のAI音声合成「CoeFont Studio」　ゲーム実況・プレゼンなどの利用見込む
Yellstonが、Webブラウザで使えるAI音声合成サービスを公開。利用料は無料で、プレゼンやゲーム実況動画といった用途を見込む。法人・個人を問わず商用利用を認める。
AIで声質を“美少女”化　音声変換サービス「七声ニーナ」、DeNAが試験提供
ディー・エヌ・エーが、AIを活用したボイスチェンジャー「七声ニーナ」の試験提供を始めた。ユーザーは専用サイトで自分の声を録音するだけで、音声を女性の声質に変換できる。
ドワンゴ、AIボイスチェンジャー公開　誰の声でも100人の声に変換
ドワンゴがディープラーニング技術を活用したボイスチェンジャー「Seiren Voice」をWebサイトで無償公開した。自分の声を100人分の声に変換できる。
DNPが誤読の少ない音声合成AI開発　「行って」の読みなど判別可、企業向けに提供
大日本印刷（DNP）は6月15日、従来の同社製品に比べ、漢字の読み間違いが約50～70％少ない音声合成システムを開発したと発表した。「行って」が「いって」なのか「おこなって」なのか判別できるという。