機械の声で気持ちよくなれるか ささやきAIで「メイドさんASMR」動画作ってみた
AI音声合成ソフト「VOICEVOX」に、ささやき声を合成できる音源「九州そら」が登場した。疑似バイノーラル化技術を使って、AIを使った「ASMR動画」が作れるのか検証してみた。
「ASMR動画」をご存じだろうか。YouTubeでは主に「脳がゾクゾクするような気持ちいい音を収録した動画」という意味で使われる言葉だ。「包丁でいろんなものを切る音」「耳かきの音」「ささやき声」などを収めた動画が人気ジャンルになっている。そんなASMRにぴったりの“ささやくAI”が登場したので、早速動画にしてみた。
シナリオは普段からASMR動画を楽しんでいるという同僚に頼んで書いてもらった。タイトルは「あなたのことを世界一愛している一途メイドと密着添い寝ASMR」。登場人物はメイド、聞き手は女主人とのこと。後半が少し過激だったためカットしている。
いかがだろうか。普段からASMR動画を聞いている人であれば「これは確かにASMRだ」と感じられるだろう。特筆すべきはその自然な音質だ。文字から直接ささやき声を合成できるソフトの時点で非常に珍しいのだが、ノイズ感が少ないのが素晴らしい。編集部では息継ぎが入っている点が高評価だった。
この声は、無料の音声合成ソフト「VOICEVOX」で合成したもの。音声合成ソフトの販売を手掛けるSSS(仙台市)が3月16日にリリースしたVOICEVOX用音源「九州そら」を使っている。九州そらは同ソフトで初めてささやき声の合成に対応した音源だ。
VOICEVOXと九州そらを使えば、声優を雇えなくても自分の好きな内容のASMR動画をゼロから作り上げられる。
ゼロから作るASMR
まずはシナリオを用意する。筆者はASMR動画の経験値が少ないため、ASMRの“決まり手”を把握している吉川記者にシナリオの制作を頼んだ。
これをVOICEVOXに入力して九州そらに読み上げさせる。イントネーションや読み上げ速度などを変更する機能で、違和感のある部分を少し修正すれば完成だ。ささやき声は、通常の発声と異なり明確な音程がないため、音程の細かな編集がほとんど必要ない。初心者にもとっつきやすいといえる。
音声が完成したら、音声編集ソフト上で音声ファイルを順番に並べ、せりふを再生するタイミングを調整する。
無駄なノイズの削除、必要なノイズの付加、音色の微調整などを施せば、下地は完成だ。ここで一度聞いてみよう。
このままではただささやいているだけで、ASMR動画とはいえない。このジャンルのASMR動画は、人の頭や耳の形を模した専用のマイクで収録することで、音の位置が聞いて分かるような自然な音声になっている。そのような音声を「バイノーラル音声」と呼ぶが、これを再現しなければ、ささやきASMR動画を十分に再現しているとはいえない。
そこで、「バイノーラルパンナー」と呼ばれる専用ソフトを起用。今回使ったのはドイツ音響機器メーカー「ゼンハイザー」の「dearVR MICRO」。同社はVRマイクを販売するなど3D音響にも長けたメーカーで、dearVR MICROも無料で提供している。
dearVRを使えば、バイノーラルマイクで収録していない音声でも疑似的にバイノーラル化できる。音の発生位置(音源)を前後左右上下に再配置するのが主な機能で、一般的なパンナーより自然な聴感の再現が可能。加えて、空間の響きをシミュレーションする機能も備えているのが便利だ。
シナリオの指定に合わせて音源を配置すれば完成。シナリオの流し込みから音声の完成までにかかった作業時間は1時間以内だった。
誰でも“自分が欲しかったもの”を生み出せる
VOICEVOXと九州そらの、これまでになかった新しい点は、“自分が欲しかったささやき音声”を誰でも自由に作れるようにしたことだ。「ささやきASMRの民主化」ともいえるかもしれない。
これまでは、自分の声を収録するか、声優に発注するしかなかった。音声合成ソフトの音声を“ささやき音声化”する音声加工技術もあったが、残念ながらASMR動画にする上で十分な品質とはいえなかった。
今後は、聞きたい音声や作りたい音声があれば、シナリオを書いて機械に読み上げさせて、dearVR MICROで音を配置するだけで実現できる。制作ハードルが一気に下がったことで、未来のASMRシナリオライターを生み出す基盤になるかもしれない。
関連記事
- AIで“ASMR”が作れる時代に ささやき声も出せる音声合成「九州そら」無料公開
SSSが音声合成ソフト「VOICEVOX」用音源「九州そら」をリリースした。九州そらは、せりふを入力するだけで人間らしい“ささやき声”を出力できるAIだ。 - 「VOICEPEAK」と「CeVIO Pro」、 新しい音声・歌声合成製品はどこがすごいの? 商用可能でMac対応でほぼ人間
人間と区別できないレベルの音声合成・歌声合成が可能なソフトが登場した。さらに重要なポイントが2つある。 - 1.6万円で商用利用も可 AI読み上げソフト「VOICEPEAK」登場 7音源付属、Win・Mac・Linuxに対応
AHSがAI読み上げソフト「VOICEPEAK 商用可能 6ナレーターセット」を発売する。価格は1万5800円からと安価だが、許諾を得なくても商用利用できる。対応OSはWindows、MacOS、Linux。 - 声のプロに音声合成AIの品質はどう映る 声優・森川智之さんが語る“技術への向き合い方”
声優の森川智之さんは小学館のプロジェクトでその声をAIとして保存した。声のプロから見たAI音声合成の質について森川さんは「まだまだ問題はある」としながらも技術の発展については好意的だ。 - 高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表
明治大学らが、音声合成の研究に必要な音声を収録するための台本「ITAコーパス」を公開した。開発に携わった小口さんによると、ITAコーパスは既存コーパスが抱えていた3つのハードルを解消できるように設計したという。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.