BTSやSEVENTEEN、NewJeansなどグローバルアーティストを擁する韓国のHYBE。同社は音楽以外にもプラットフォーム、ゲームなどを開発する複数のテック事業を傘下に置く。今回取り上げる「Supertone」は、歌や演技といったコンテンツの声の生成とデザインを専門とするAIオーディオ企業だ。事業内容はリアルタイム音声変換、テキスト情報の音声変換(Text to Speech)、ノイズ除去、AIダビングなど「音」に特化している
ユーザーの声をいろいろなキャラクターの声にリアルタイムで変換するツール「Supertone Shift」(Shift)や、テキスト入力による簡単なせりふの編集だけで自然な音声コンテンツを生成できる創作ツール「Supertone Play」(Play)を開発。現在Shiftは正式版がリリースされ、Playはオープンベータ版が公開されていて、これらを軸に日本市場を開拓しようとしている。
同社のコンテンツ事業開発チームリーダーのKyo Sun Choo氏に、技術開発の意図や今後の展望を聞いた。
Supertoneは2020年3月に創設。2023年にHYBEが450億ウォンで買収した。現在、約70人が働き、うち半数が研究開発に従事している。
「もともと、ソウル大学の教授を兼任している代表のKyogu Leeと5人の研究員が共同創業した会社です。R&D部門が技術開発を、メイン部門がその技術を製品化する体制を取っていて、私がいる事業開発チームは、Supertoneの事業戦略・企画・開発を担っています」
今回、同社が開発した2つの技術「Shift」と「Play」とはどんなプロダクトなのか。 「Shift」は、選択したキャラクターの声にリアルタイムで変換できる。47ミリ秒(0.047秒)と、人間が遅れをほぼ認識できないほどの低遅延であるのが特徴だ。ユーザーとキャラクターの声の混合比率や抑揚などの設定も、リアルタイムで変更可能となっている。
例えば、筆者がShiftを使用する前に10秒ほど声をインプットすると、声の低音が分析されて変換される声がより自然なものになる。Shiftは女性、高齢者、子ども、アニメチックなど38種類のキャラクターを用意していて(2024年11月5日時点)、任意に選んだ声に変換可能だ。
後者のPlayは、打ち込んだテキスト文章を、選択したキャラクターの声で読み上げることができる。Shiftと同様、音声の高さや抑揚などを調整できる上、英語や日本語など複数の言語で生成できるという。
デモをしてくれた担当者によると、現時点では、特に英語と韓国語に関して、かなり高い精度を誇っているという。今後は日本語の精度をさらに上げるとともに対応言語を増やし続け、よりグローバルなサービスを提供したいと話していた。対応言語が将来5、10、15と増えていけば利便性はより高まる。
PlayとShiftを開発した動機をKyosun氏に聞くと「私たちが開発しているのは、音声を専門にした独自の基盤モデルで、他社が開発した技術を持ってきて何かを作っているわけではありません。弊社は基本的に音楽やゲームなどコンテンツが好きな人たちの集まりで、開発した技術をコンテンツに応用したいと思ってきました」と明かす。PlayやShiftの本格的な開発は、2023年に始まった。
「今のコンテンツ業界のトレンドを見ると、バーチャルヒューマンやメタバースなど、声が必要となる分野がホットだからです。日本市場ではVTuberの人気が高い一方、地声を公開したくない人も少なくありません。そういう意味で、Shiftは特に日本市場に受け入れられやすい技術だと確信しています。日本にはコンテンツが豊富にそろっているので、私たちの技術を提供できる機会も多く、その強みをアピールできると思っています」
音声を、任意の音声にすぐに変換して出力するリアルタイムボイスチェンジャー(RVC)は、以前から日本でも多くの競合がサービスを提供している。Shiftの強みは何かと聞くと「RVCは昔から存在し、質の違いがあるだけで、競合他社が多いのは事実です。ただし、Shiftの質は非常に高いのです。競争力は高いと自負しており、他社との差は確実にあると考えています」と話し、技術力に自信を見せた。
自信の源泉は4つあり、同社が「学者の集まり」であることから論文も発表。音声分野で最も権威のある国際会議「INTERSPEECH」でも発表したという。
「1つ目は、競合他社と比べてもかなり遅延が少ない点です。2つ目は、変換された後の音声が非常に自然な声であることです。3つ目は、元となる音声データを学習させる必要があるものの、標準で20秒ぐらいの音声サンプルで実装可能な点です。最後は、同時にいろんなアプリケーションを実行しても問題ないほどデータ容量が軽い点です」
特に学習時間が20秒というのは圧倒的な短さだ。ある競合企業の関係者は、筆者の取材に「他社はこの何十倍という時間をかけて音声データをコンピュータに記憶させなければならない。数十秒で学習できるSupertoneの技術力は非常に優れている」と明かす。では、学習時間が長ければ精度は上がるものなのか。
「データは多ければ多いほどいいのですが、だからといって、20秒と1時間の差がそれほどあるわけではないです。Shiftにおいては量よりも質がより重要で、雑音が入っている1時間の音声よりも、20秒のクリーンな音声データのほうがより良いのです」
同社は音声の学習技術に加えて、ノイズを除去する技術も有している。今回、インタビュー音源の一部に「蛍の光」の曲の音が入っており、その音源の「蛍の光」のノイズ除去を依頼した。実際にノイズを除去した音源を聞いてみると、完璧に取り除かれていた。つまり、ノイズ除去の技術によって、常に質の高いデータを読み込ませられるということだ。
例えば兵役に就いている男性K-POPアーティストは新曲をレコーディングしてリリースすることができない。だがメンバー一人一人の音声データを学習させれば、理論上は新曲を出せるのかと尋ねると「技術的には可能です」と語る。「ただし私たちはコンテンツを尊重する会社で、アーティストの意見もあります。本人の許可なしで使用することはありませんし、研究をするにあたっても適切な方法で行いますので、絶対に一般公開しません。また、アーティストらに不安を与えないようにNDA(秘密保持契約)を結ぶなどいろいろと気を付けています」と話し、使い方には細心の注意を払う。
この辺りは、会社とアーティストの考え方次第だろうが、革新的な技術であることは間違いなさそうだ。一方のPlayについてはどうか。
「TTSについては、今までは音声を出力すると機械的な音声といいますか、人工的な音声でした。ですがPlayの場合は、かなり自然です。ゲーム内のアニメーションでも、演技力を伴ったような、表現の豊かさが強みです。VTuber向けの無料で使えるキャラクターがあり、Supertone Playのオープンベータ版では、約50種類のキャラクターボイスを提供し、さらに追加していく予定です。これも競合他社と差別化を図れる要素かと思います」
自然に発声できる技術力の源泉は、Supertoneが開発した音声生成に関するAI機能を備えたAIファンデーションモデル「NANSY」(Neural Analysis & Synthesis)にある。音色や発音、ピッチ、音量といった4つの要素に分解後、再構成する特殊な機能を利用して、リアルな音声を無限に生成できるのだ。
TXTが眼前で踊る! 世界的先駆者に聞く「映画館VRコンサート」の破壊力
BTS擁するHYBE発 1億DL超“推し活”アプリ「Weverse」がエンタメの常識を覆すワケ
BTS、SEVENTEEN参加の1.5億DL超“推し活”アプリ「Weverse」 LTV向上の秘策は?
SEVENTEENの「THE CITY」 HYBE JAPANトップに聞く新時代のプロモーション
BTS、SEVENTEENを擁するHYBE ゲーム事業に参入するワケと勝算
YOSHIKIが描く「AIと音楽ビジネス」の未来 日本主導のルール整備はなぜ必要か
YOSHIKIに聞く日本の音楽ビジネスの課題 THE LAST ROCKSTARSで「世界の市場を切り開く」Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR注目記事ランキング