「みんな〜〜〜私のこと見えてるぅ〜〜〜?」――出版社やIPホルダー、映像・CG、先端技術を持つコンテンツ関連企業が集結する「コンテンツ東京」(7月3日から5日まで東京ビッグサイトで開催)を物色していたら、遠くのブースからえらくキャピキャピした声が聞こえてきた。「どこかの企業がゲストでも呼んだのかな?」と覗いてみると、声の主は角刈りのオジサンだった。
ブースは、韓国の音声AI企業Supertoneが出展したもの。角刈りオジサンの美少女ボイスは、リアルタイム音声変換ソフト「SHIFT」のデモによるものだった。このSHIFT、少女だけでなく少年、成人女性、成人男性、渋いおじいさん、悪魔などさまざまな声がプリセットされており、リアルタイムかつ高精度に声を変換できるのが特徴。
独自の音声合成基盤モデル「NANSY」(Neural Analysis & Synthesis)を採用しており、ユーザーの声の事前学習も、10秒程度のサンプルスクリプトを読み上げるだけで完了。ユーザーとキャラクターの音声の混合比率や感情の表現度合い、音の高低なども細かく調整可能だ。
同様の技術として「RVC」(Realtime Voice Changer)などが有名だが、快適に利用するにはNVIDIAの高性能なGPUを必要とする。一方、SHIFTはCPUのみで47ミリ秒という超低遅延でのリアルタイム変換が可能。デモ機は外部GPUを搭載していない米MicrosoftのSurfaceだったが、ほぼ同時に声を変換できていた。
SHIFTは現在、無料のオープンβ版を公開中。2024年後半での正式提供を予定しているという。なお、変換先の声を追加することはできず、プリセットされた音声へのリアルタイム変換に対応する。WindowsとMacで利用可能だ。
SHIFTを開発するSupertoneだが、親会社は韓国の大手エンターテインメント企業のHYBE。傘下のレーベル子会社には「BTS」などグローバルで活躍するアイドルグループが複数所属しており、HYBEはSupertoneを23年に買収している。
「アイドルグループを擁するエンタメ企業がなぜ音声AI企業を?」と疑問に思うが、聞くと海外展開を見据えたものという。ボイスチェンジャーと翻訳技術を組み合わせたものになるが、例えば海外のファン向けに、アイドル自身の声でありながら現地の言葉で話すコンテンツを提供できるという。
以下の動画はSupertoneの技術を使ったもの。BTSと同じレーベルに所属する「TOMORROW X TOGETHER」のYouTube番組だが、韓国語だけでなく本人の声色のままインドネシア語にも切り替えられる。こうしたローカライズの際に、字幕だけでなくその国の言葉でもコンテンツを届けられる。
ゲーム配信などにも展開可能だ。音声チャットやゲーム実況の配信などで、そのゲームに登場するキャラクターの声にリアルタイム変換して配信できる。コンピューティングパワーを多く必要としないので、VTuberやポッドキャストなど声をリアルタイムに変換したいあらゆるニーズに対応できる。
日本企業との提携などはこれからとのことで、同展示会には日本のコンテンツホルダーへの認知拡大を目的に出展したという。
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR