ITmedia NEWS > AI+ >
ITmedia AI+ AI活用のいまが分かる

自分の声が500円でAIボイスに? 音声読み上げソフト「CoeFont CLOUD」の品質を動画でチェック(1/2 ページ)

» 2021年07月20日 14時00分 公開
[谷井将人ITmedia]

 突然だが、記者の話し声をベースにしたAI音声読み上げソフトができたので聞いてほしい。

ハイエンドプラン(1500円)で作った音源を使用

 いかがだろうか。作るのにかかる作業時間は十数分から、コストは500〜1500円だ。ノイズはあるが形になっているだろう。

 この音声のように、文章を入力すると話し声を出力する音声読み上げシステムは、スマートスピーカーやGoogle翻訳、ゲーム実況動画の電子音声など身近なところで普通に使われている。

 そんな音声読み上げソフトの開発にはある程度大きな資金が必要だ。近年ではクリエイター向けの音声読み上げソフトを開発する際にクラウドファンディングで資金を調達する例が増えている。その目標支援額は、たいてい数百万円規模だ。

 しかし、音声読み上げソフト業界に価格破壊ともいえる新サービスが7月19日に登場した。それがAIベンチャーYellston(東京都港区)の「CoeFont CLOUD」だ。これは同社の社長で東京工業大学2年生の早川尚吾さんが開発したクラウドサービスで、500円から自分の声をAI音声読み上げソフトにできるというものだ。

photo CoeFont CLOUDのWebサイト。現在は招待制

 今回は、日頃から音声読み上げソフトや歌声合成ソフトで遊んでばかりいるせいで「音声読み上げソフトを開発したいけど資金がない」と夢ばかり膨らんでいた記者が、憧れの開発を体験してみた。

十数分の収録でAIになれる

 CoeFont CLOUDで音声読み上げソフト(厳密には音声読み上げソフト用の音源)になる手順は、サービスに登録して、自分の声を収録して、音源ができるのを待つという3ステップだけだ。

 収録といってもスタジオに行ってサウンドエンジニアの前で……なんて大層なものではなく、スマートフォンや一般的なマイクで録音できる。記者は自宅の動画配信スペースでマイクを使って録音した。

 収録のときに専門のソフトウェアをインストールする必要もなく、Webブラウザ上に表示される指示通りに台本を読めばいい。読み上げるせりふは100個。仕事の休憩時間にぱっと録音できてしまう量だ。

収録の様子。高品質な音源を作るには700文を読み上げる必要がある

 収録が終わった後は6〜8時間ほど待てば音源が完成する。これだけで、AIを活用して記者の話し方を再現する音声読み上げソフトが作れるのだから「ソフトを開発したい」という夢もかなり身近になったものだ。

クオリティーはまずまず 収録時間を長くすれば品質向上

 こうしてできた音源を使っていろいろ遊んでみたが、十数分の収録、500円でできる範囲ではノイズが大きく聞こえる。100文収録するだけで音源ができるのがすでにすごいことなのだが。

 CoeFont CLOUDには1回500円の「ベーシック」プランの他に1000円の「ミドルレンジ」プラン、1500円の「ハイエンド」プランもあり、そちらは想定の収録時間も1〜2時間と長い。デモ音声を聞き比べてみたところ、ミドルレンジプラン以上は、ノイズが減ったり声に表情が乗ったりしている印象だ。

photo ハイエンド音源も作ってみたが、読み間違いで録音し直していたら、収録に4時間かかった
       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.