ITmedia NEWS > STUDIO >

TTSの発展は「誰でもオーディオブック」の世界を開くか 無料で商用利用もできる「VOICEVOX」の実用度小寺信良のIT大作戦(2/3 ページ)

» 2022年03月28日 10時45分 公開
[小寺信良ITmedia]

拡張を続ける音声の自動化

 日本における肌感覚としては、オーディオブックが「来た」とはまだいえない。だが文章の消費のされ方の1つとして、ウインドウは多い方がいい。例えば本稿のような4000字程度のコラムをオーディオブックにしたら、およそ15分の音声コンテンツとなるはずだ。意外に長い、と思われただろう。朗読では、黙読で記事を読むのに比べて、およそ3倍程度長くなる。

 15分もの原稿をプロのナレーターに依頼して録音していたらコストが合わないので、もしこうしたコラムをオーディオブック化するなら、ITの力を借りて自動化するしかない。

 実はテキストを入力すると音声で読み上げてくれるプログラムは、コンピュータの黎明期から存在した。かつてのMacintosh用System(OS)にもあったし、AmigaのOSにもあった。これは主に障害者対応機能として搭載されていたのだが、面白がって使う人も多かった。当然英語用に作られていたので、日本語を喋らせるためにはローマ字を読ませることになる。うまく喋らせるためには、入力するアルファベットに妙なコツが必要だったものだ。

 こうしたTTS(Text-to-Speech)機能は、放送の世界では緊急速報などの読み上げ用として、NHK技術研究所を中心にもう15〜20年ぐらい前から取り組まれている。深夜に災害が起こった場合や、長時間放送し続けなければなら場合では、人間のアナウンサーでは対応できない場合があるからだ。

 今では単なる原稿読み上げではなく、データを食わせればそこから自動で原稿を起こしてしゃべるという、「ロボット実況」へと進化していった。このロボット実況は、2016年リオオリンピックから実証実験が始まり、先の東京オリンピックではオンラインライブ配信の自動実況に使われていた。

 一方コンシューマーの世界では、歌詞とメロディーで「歌わせる」という技術が劇的な成果を上げた。言うまでもなく、ヤマハが開発したボーカロイドである。今では「ボカロ曲」というのが1つの音楽ジャンルを形成し、カラオケではボカロ曲を人間が歌うという逆転現象も起こっている。

 歌と読み上げ、この2つは似ているようで、進化の具合が違っている。歌の場合、作曲者がプロデューサーも兼ねていることが大半で、頭の中にはすでに完成のイメージがあり、イメージと合わない部分や表現が足りない部分はエディットによって修正される。楽曲の大半は3分から6分程度であり、細かく手動でエディットしていってもある程度の目処は立つ作業量である。

 一方読み上げの場合は、文章書きがナレーションの完成型まで頭にあるかというと、そこは微妙なところだ。書き手が標準語話者であれば、イントネーションのおかしなところには気がつけるだろうが、方言話者の場合はなかなか気づきにくい。またちょっとしたコラム文章でも15分〜20分のコンテンツになるのでは、手動でのエディットは時間が掛かりすぎて、コストに合わなくなる。

 ただ、読み上げツールが自然に上手く喋ってくれるのであれば、文章と同時にオーディオブックを作るという行為は、途端に現実的なものとなるはずだ。

Copyright © ITmedia, Inc. All Rights Reserved.