ITmedia NEWS > 科学・テクノロジー >

スマホで“ひそひそ声”を通常の声に変える技術 東大教授「WESPER」開発Innovative Tech

» 2023年03月17日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が発表した論文「WESPER: 話者・言語非依存の実時間ささやき声通常音声変換によるスピーチインタラクション」は、声をひそめる“ささやき声”や“かすれ声”を通常の音声にリアルタイムに変換する機械学習モデルを提案した研究報告である。

WESPERの概要図

 ささやき声は音圧が低いため周囲に聞こえづらいが、マイクでの採取は可能だ。そのため公共の場での音声入力に活用できる可能性がある。また、発声障害者で声帯を損傷している人でもささやき声は発声できるケースがあるため、活用できる可能性がある。

 この研究では、自己教師型学習により、ささやき声から通常音声への音声変換を行うモデル「WESPER」を提案する。WESPERは、エンコーダーである音声単位変換器(Speech-to-Unit encoder、STU)と、デコーダーである単位音声変換器(Unitto-Speech decoder、UTS)で構成する。

 STUは通常音声とささやき声音声を事前学習し、その差分を吸収した潜在表現である音声単位を生成する。UTSは、エンコーダーから受け取った音声単位から目標音声波形を再構成する。

(左)ささやき声、(中央)WESPERで変換した声、(右)同一発話の通常音声

 ペアでない通常音声とささやき声音声で学習できる(つまり、教師データであるテキストラベルを必要としない)ため、例えば、声帯摘出前の音声データと声帯摘出後のささやき声から学習でき、音声の再構成ができる。

 さらに、この手法はリアルタイムに変換できるため、例えばビデオ会議中にささやき声を通常の声に変換して会話することも可能だ。

 提案手法を評価するため、参加者50人に音声を聞いてもらい精査してもらった。その結果、ささやき声から変換した音声は韻律の自然さも保持され有効であると分かった。さらに、言語障害者の音声を収録したコーパスを用いた音声も評価した結果、良好な結果を得られた。後者はドイツ語なため、WESPERが特定の言語に依存していない可能性を示唆した。

 入力基材には、ヘッドセットやMEMSマイクを4個配列した指向性マイク、ポップガードノイズを装着したスマートフォンなどを使用した。

(a)ヘッドセット、(b)アレイマイク、(c) ポップガードノイズを装着したスマートフォン

 この論文は、2023年4月に開催予定のHuman-Computer Interaction(HCI)の国際会議「CHI 2023」(Conference on Human Factors in Computing Systems 2023)に採択された研究である。

 ささやき声とWESPERによって変換された音声は以下の動画で確認されたい。

Source and Image Credits: 暦本純一. WESPER: 話者・言語非依存の実時間ささやき声通常音声変換によるスピーチインタラクション. 情報処理学会 インタラクション2023



Copyright © ITmedia, Inc. All Rights Reserved.