スマホで“ひそひそ声”を通常の声に変える技術 東大教授「WESPER」開発:Innovative Tech
ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授は、声をひそめる“ささやき声”や“かすれ声”を通常の音声にリアルタイムに変換する機械学習モデルを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が発表した論文「WESPER: 話者・言語非依存の実時間ささやき声通常音声変換によるスピーチインタラクション」は、声をひそめる“ささやき声”や“かすれ声”を通常の音声にリアルタイムに変換する機械学習モデルを提案した研究報告である。
ささやき声は音圧が低いため周囲に聞こえづらいが、マイクでの採取は可能だ。そのため公共の場での音声入力に活用できる可能性がある。また、発声障害者で声帯を損傷している人でもささやき声は発声できるケースがあるため、活用できる可能性がある。
この研究では、自己教師型学習により、ささやき声から通常音声への音声変換を行うモデル「WESPER」を提案する。WESPERは、エンコーダーである音声単位変換器(Speech-to-Unit encoder、STU)と、デコーダーである単位音声変換器(Unitto-Speech decoder、UTS)で構成する。
STUは通常音声とささやき声音声を事前学習し、その差分を吸収した潜在表現である音声単位を生成する。UTSは、エンコーダーから受け取った音声単位から目標音声波形を再構成する。
ペアでない通常音声とささやき声音声で学習できる(つまり、教師データであるテキストラベルを必要としない)ため、例えば、声帯摘出前の音声データと声帯摘出後のささやき声から学習でき、音声の再構成ができる。
さらに、この手法はリアルタイムに変換できるため、例えばビデオ会議中にささやき声を通常の声に変換して会話することも可能だ。
提案手法を評価するため、参加者50人に音声を聞いてもらい精査してもらった。その結果、ささやき声から変換した音声は韻律の自然さも保持され有効であると分かった。さらに、言語障害者の音声を収録したコーパスを用いた音声も評価した結果、良好な結果を得られた。後者はドイツ語なため、WESPERが特定の言語に依存していない可能性を示唆した。
入力基材には、ヘッドセットやMEMSマイクを4個配列した指向性マイク、ポップガードノイズを装着したスマートフォンなどを使用した。
この論文は、2023年4月に開催予定のHuman-Computer Interaction(HCI)の国際会議「CHI 2023」(Conference on Human Factors in Computing Systems 2023)に採択された研究である。
ささやき声とWESPERによって変換された音声は以下の動画で確認されたい。
Source and Image Credits: 暦本純一. WESPER: 話者・言語非依存の実時間ささやき声通常音声変換によるスピーチインタラクション. 情報処理学会 インタラクション2023
関連記事
- 聞き取れない声を“通常の声”に変える「人工喉」 喉に貼り付ける薄い小型マイクスピーカー
中国の清華大学、上海交通大学に所属する研究者らは、微小な声もしくは発声障害などできちんと出せない声などを通常の音量の声に変換してくれる人工喉を提案した研究報告を発表した。 - イヤフォンの“音漏れ”を利用したハンドジェスチャー入力 筑波大と北海道大が開発
筑波大学と北海道大学に所属する研究者らは、イヤフォンの音漏れを利用して耳を覆いかぶすように手を添えてハンドジェスチャー入力を行う手法を提案した研究報告を発表した。 - スマホで“口パク入力”を気軽にできるアプリ 東大とソニーCSLが「LipLearner」開発
東京大学とソニーコンピュータサイエンス研究所(CSL)に所属する研究者らは、口パク(無声発話)を検出し、スマートフォンの入力に使用できるモバイルアプリケーションを提案した研究報告を発表した。 - 耳をふさがないのに音漏れしない不思議なイヤフォン NTT子会社が製品化 8250円から
NTTグループ企業のNTTソノリティは11月9日、耳元で音を閉じ込める「PSZ」技術を使った製品として、2つのオープンイヤー型イヤフォンを発表した。 - 口パクで音声入力、喉に小型センサーで 東大とソニーCSLが技術開発
視聴覚障害者のための触診リップリーディングから発想を得た。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.