ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表

» 2021年06月18日 13時30分 公開
[谷井将人ITmedia]

 スマートフォンやスマートスピーカー、銀行ATM、券売機など、あらゆる場面で合成音声が使われるようになって久しい。近年では特に機械学習技術を活用した音声合成システムの製品化やサービス化が進んでいる。

 音声合成の研究開発や製品化を行う際には、学習素材として大量の音声が必要だ。しかし学習に適した上質な音声ファイルはネット上にもあまりない。いまだに素材を集めにくい状態にある。

 これまでは研究開発用の素材を得るため「音素バランス文」と呼ばれる台本を用意し、それをアナウンサーや声優などに読み上げてもらい、まとまったデータを取得していた。

 「しかし、これまでの音素バランス文には『使用料』『ライセンス』『台本の読みにくさ』3つのハードルがありました」

 そう話すのは明治大学で音声合成の研究をしている小口純矢さんだ。音声合成ソフトの販売を手掛けるSSS(仙台市)と小口さんが所属する明治大学、九州工業大学は6月17日、新規開発した音素バランス文を集めた「ITAコーパス」を一般公開した。

photo SSSが企画し、明治大学と九州工業大学が音素バランス文やデータ作成をサポートした

 小口さんによると、ITAコーパスは既存の音素バランス文が抱えていた3つのハードルを取り除くために開発したものだという。

既存の音素バランス文が抱えていた3つの課題

 研究開発の場面でよく使われる音素バランス文としては「ATR503文」「声優統計コーパス」「JSUTコーパス」などが代表的だ。

 これらは、新聞や雑誌、Wikipediaなどから文章を集めてまとめたもので「あらゆる現実を全て自分のほうへねじ曲げたのだ」といった文章を数百から数千個収録している。

 ただ文章を集めるだけではない。日本語で使われる「a」「k」といった音素を全て含むのはもちろん「ak」「sa」など2つの音素の組合わせ、「asa」「des」など3つの音素の組み合わせもできる限り含む必要がある。

 音素バランス文という名前の通りバランスが大切で、それぞれの音素や組み合わせの出現回数が偏らないようにするなど、緻密な計算を重ねて設計している。

 これらの音素バランス文は以前から広く使われてきたが、課題も3つあった。

 一つ目が使用料の問題だ。ATR503文の読み上げデータ集は国際電気通信基礎技術研究所(ATR)が発売している商品で、価格は読み上げ音声付きのデータで数十万円に上る。小口さんによると「10年ほど前は無料のコーパスがなく、ATRからデータを買って研究開発に使っていました。コストがかかるのはもちろん、研究所などで独自に収録した読み上げ音声の公開もしにくい仕組みでした」という。

photo

 そこで登場したのが無料の声優統計コーパスやJSUTコーパスだ。声優統計コーパスは声優やアナウンサーの読み上げ音声約2時間、JSUTは女性の読み上げ音声を約10時間収録したデータも無償公開。研究開発のハードルになっていた使用料をなくした。

 二つ目の課題がライセンスだ。声優統計コーパスとJSUTコーパスには「CC-BY-SA」というライセンスが付いている。CCは国際的非営利組織「クリエイティブ・コモンズ」の略。同団体はインターネット上の著作権ルールを提案し、共通で使えるライセンス表記「CCライセンス」を公開している。

 CC-BY-SAは「この作品を使う際は原作者の氏名や作品タイトルを表示すること。また、二次著作物を公開する場合は同じライセンスを付けること」という意味になる。CC-BY-SAで公開された音素バランス文を読み上げて音声にした場合、リリースする際には原作者名などを明記したうえでCC-BY-SAライセンスを付けないといけない。

photo

 原作者名の表示とライセンスの継承そのものは悪いことではない。しかし例えば「作った音声合成ソフトには原作者表示を義務付けたくない」と思ってもできないなど、自由度が下がるデメリットがある。

 三つ目の課題が読みにくさだ。音素バランス文は音素や組み合わせをできる限り網羅する関係で、収録する文章量が多いうえ、難読地名のような単語も複数出てくる。プロのアナウンサーなどを呼んでも、収録に半日から数日かかる場合もあるほどの量の難しい台本では、データを増やすのにも一苦労する。

 しかし、文章量や難読単語を減らせば網羅できる音素の組み合わせが減ってしまうため、ひと工夫が必要になる。

3つの課題を解決する「ITAコーパス」

 これらの課題を解決するため、SSSは音素バランス文の新規開発を企画。2020年7月にクラウドファンディングで目標額の261%もの資金を集め、明治大学と九州工業大学の協力の下、音素バランス文の開発に乗り出した。

photo

 ITAコーパスは青空文庫などから424文を集め、音素と組み合わせの出現率などを調整したデータ集で、使用料は0円。ライセンスはパブリックドメインとした。

 誰でも無料で使え、著作権を放棄しているためITAコーパスという作品名を表記する必要もない。台本を使って収録した音声の公開も自由で、二次著作物のライセンスも自由に定められる。

 読みやすさを確保するため台本は2部構成にした。前半の100文は日本語の音素を最低限網羅するための台本、後半の324文は音素の組み合わせを増やすための台本だ。

 424文というのは、声優統計コーパス(100文)より多くATR503文より少ない。ITAコーパスは100文と324文に分けたことで、声優統計コーパスのように少ない文章で簡単に収録することも、ATR503文のように十分なデータを取ることも可能な設計にしている。

 時間があり、データ量を増やしたい場合は後半まで、収録時間に限りがある場合は最低限の100文だけを読み上げるといった融通の利かせ方ができる。

 難読単語は文章中に無理やり入れるのではなく、1単語だけ切り出して読みやすさを向上させた。その分、ATR503文に比べると組み合わせの網羅率や偏りの面で少し劣るという課題もあるという。

 「ITAコーパスは読みにくさとライセンスの問題をクリアしているため、これから徐々に利用が増えていくと思います」(小口さん)

 ITAコーパスは今後、研究者はもちろん趣味で音声合成を研究している人にも使われていく可能性がある。小口さんによればシンプルな音声合成の他にも、口を映した無音の動画からせりふを推測して音声化するといった、音声と別の媒体を組み合わせた「マルチモーダル音声合成システム」の開発など、活用の幅が広がる見込みだという。

Copyright © ITmedia, Inc. All Rights Reserved.