TTSの発展は「誰でもオーディオブック」の世界を開くか 無料で商用利用もできる「VOICEVOX」の実用度:小寺信良のIT大作戦(3/3 ページ)
TTS(Text to Speech)の進化が著しい。これがオーディオコンテンツ作成にどう影響するのかを小寺信良さんが考察する。
すでに射程圏内に入った日本語TTSツール
日本語TTSツールは、ここにきて急速に進化し、もはやナレーションとして使用するのにあまり不自由がないところまで来ている。
「VOICEVOX」は、ソフト名とキャラクター名をクレジットすれば、商用・非商用問わずに無料で使用できる日本語TTSツールである。音声タイプとして10人のキャラクターが設定されており、一部はさらに読み上げスタイルもプリセットされている。
例えば「四国めたん」というキャラクターには、ノーマル、あまあま、ツンツン、セクシーの4スタイルがプリセットされている。3月16日のアップデートver 0.11.4では、新キャラクターとして「九州そら」が登場し、読み上げスタイルにも新たに「ささやき」が追加された。
ささやき声は、古き良き20世紀のOSの読み上げソフトにも存在したが、意外に難しい。アクセントやイントネーションはほとんどない代わりに、母音と子音の発声のさせ方が難しく、全然ささやき声に聞こえない。一方「九州そら」のささやき声は、もはや人の声と区別がつかない。サイト上にあるサンプルボイスをぜひお聴きいただきたい。
VOICEVOXのUIからすると、アニメ声優の置き換えに使えそうなイメージがあるが、文章に応じた芝居ができるわけではなく、またそうした編集まではサポートしていない。今すぐ声優の置き換えになるわけではないが、劇中に登場する「音声インタフェース」の役柄ならこなせそうなレベルではある。
VOICEVOXは、一文が長すぎるとイントネーションが不安定になるという弱点があるものの、クレジットすれば無償で利用できるという強みがある。コラムの読み上げでは、URLや画像の参照をどうするかといった課題はあるが、実際に試してみると、文章を理解するには十分なクオリティーである。
読み上げで自分の文章を聞いていると、文章構造の不具合も見つけやすい。例えば「その」や「あの」といった代名詞が理解できるかどうかは、代名詞の参照元が時間的に近いかどうかに掛かっている。あまりにも時間的に遠い「その」があるといった問題は、読み上げの方がより発見しやすい。
今はまだ、サイト上のコラムがクラウド上でオーディオブックへ変換されるといった仕組みは実現できていないが、仕組み作りが進めば、記事タイトルの下にオーディオブックへのリンクボタンができたり、オーディオブック専用のメニューページが作られたりしていくかもしれない。
「ながら時代」のニュースサイトの未来は、意外にこんな方向性だったりする可能性はある。
関連記事
- トレースはもはや「つみ」状態なのか 引用とオマージュと再構築の果てに浮かび上がった問題とは?
うんざりするほど「トレパク」という言葉を目にするようになった。この喪代の本質を探ってみると浮かび上がってくるものがある。 - Amazonのオーディオブック「Audible」が聴き放題に、価格は据え置き 27日から
米Amazon.com傘下のオーディオコンテンツサービスAudibleが、オーディオブックの聴き放題サービスを始める。既存の会員プランの内容を拡張し、12万以上のオーディオブックが聞き放題になる。料金は月額1500円のまま、27日から提供を始める。 - AIで“ASMR”が作れる時代に ささやき声も出せる音声合成「九州そら」無料公開
SSSが音声合成ソフト「VOICEVOX」用音源「九州そら」をリリースした。九州そらは、せりふを入力するだけで人間らしい“ささやき声”を出力できるAIだ。
Copyright © ITmedia, Inc. All Rights Reserved.