「4月23日にサービスをリリースして、25日には5万人以上のユーザーが集まった。5月21日時点では20万人以上が利用しており、自分でも驚いている」──東京工業大学の2年生で19歳の早川尚吾さんは、自身が開発した音声合成サービス「CoeFont Studio」についてこう話す。
早川さんは学業の傍ら、自らが立ち上げたAIベンチャーYellston(エールストン、東京都港区)の社長も務めている。学生としてWeb授業やインターンで学んだ知識を基に、同社のサービスとしてCoeFont Studioを開発したという。
CoeFont StudioはWebブラウザで利用可能。芯の通った声質「アリアル」と透き通った声質「ミリアル」(いずれも女性の声)を提供しており、ユーザーはメールアドレスなどを登録すれば、200文字までの日本語テキストを無料で音声化できる。
読み上げの速さやアクセントの位置も調整できる他、複数のテキストを読み上げさせ、それらをつなげて1つの音声データにする機能も備える。出力した音声の商用利用も、法人・個人を問わず認めている。
早川さんによれば、すでにCoeFont Studioで作成した音声をプラネタリウムの案内に使ったり、企業の採用VTRに使ったりする例が出てきているという。早川さんはこういった利用方法について「有料にしていなかったら出なかったと思う。(開発する)自分でも想像していなかった」としている。
学生とAI企業の社長、二足のわらじを履く早川さんがどういった背景でCoeFont Studioを立ち上げるに至ったのか、そして今後どのような形でサービスを展開し、収益につなげていくのかを聞いた。
そもそも、CoeFont Studioはどういった経緯で生まれたサービスなのか。早川さんはきっかけとなったのは「ゲーム実況」だったと話す。
「もともとゲームが好きで、友人と話しながらよく遊んでいた。昔は『ゲーム実況で世界を獲ろう』と思い、プレイの様子を録画することもあったが、聞き返すと自分の声が気持ち悪かった。そこでAIを活用すれば、もっといい声で収録できるのではないかと考えた」
早川さんはもともと高校でプログラミングを学んでおり、AIやディープラーニングについても、米スタンフォード大学が無料で公開しているWeb授業で学習していた。その後、AI事業を手掛ける企業でインターンとして働き、そこで得た経験から、ディープラーニングを応用して声の課題を解決することを思い付いたという。
「2018年ごろの技術ではまだ実用的ではないと感じており、その頃は別の分野を学んでいた。しかし20年ごろに改めて音声合成技術に触れてみると『これは使える』と感じるようになった。そこで実際に開発に取り組んでみると、当初想定していたよりさらに使えそうなものができた」
早川さんが「当初の想定以上」と話すCoeFont Studio。一体どんな仕組みで動いており、クオリティーを上げるためにどんな工夫をしているのか。
CoeFont Studioではまず、ユーザーが入力したテキストをクラウド上の自然言語処理モデルで分析し、文章の読みやアクセントなどを設定。結果を基に、同じくクラウド上の音声合成AIで読み上げている。早川さんによれば、CoeFont Studioではこの中でも特に、自然言語処理モデルの働きにこだわることで、クオリティーの向上につなげているという。
「アクセントなどがおかしいと、どれだけ音声合成が良くても不自然になる。(自然言語処理の)精度を上げるため、現役アナウンサーに音声を聞いてもらい、そのフィードバックを反映することで、東京周辺で話される日本語として正しい発音やアクセントになるようにしている」(早川さん)
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR