聞き取れない声を“通常の声”に変える「人工喉」 喉に貼り付ける薄い小型マイクスピーカー:Innovative Tech
中国の清華大学、上海交通大学に所属する研究者らは、微小な声もしくは発声障害などできちんと出せない声などを通常の音量の声に変換してくれる人工喉を提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
中国の清華大学、上海交通大学に所属する研究者らが発表した論文「Mixed-modality speech recognition and interaction using a wearable artificial throat」は、微小な声もしくは発声障害などできちんと出せない声などを通常の音量の声に変換してくれる人工喉を提案した研究報告である。この人工喉は薄型で、喉に貼り付けて使用する。
人工喉は、声を発したときの筋肉の動きと音声振動を取得し、認識した内容を音声合成に変換してスピーカーのように会話レベルの音量で再生する。実験では、小さな音量の声と、喉頭摘出術などで声を失った方の曖昧な発話(発話内容が聞き取れない声を含む)の検出を高精度に行えた。
この研究では、音声知覚・発声を実現する、喉に貼り付ける薄い小型パッチのようなウェアラブル人工喉を提案する。喉付近の筋肉運動や音声振動を感知し、音声合成に変換することで微小な声でも普通の音量の声として出力する。
人工喉は、厚さ25マイクロメートル、約1cm四方のパッチで設計されており、レーザースクライブグラフェン(LSG)をベースにした薄く柔軟なポリイミド基板で構成される。人工喉は喉仏の上の外側に医療用接着剤で貼り付けて使用する。パッチはマイクロコントローラーに有線でつながっておりポケットに収納されている。パッチは数時間駆動する。
この人工喉は、動きによって身体表面がゆがんでも皮膚表面に伝わる筋肉の動きや音声振動を感知し、人間の音声の低い基本周波数を検出する。実験において、4%以下のわずかなゆがみをセンシングすることができた。人工喉は皮膚に密着しているため、周囲の雑音が音声認識の妨げになるのが少ないのも利点だ。
人工喉で収集した生体信号から、熱音響効果によって音声合成に変換し音を発する。通常のスピーカーとは異なり、振動を伴わずに表面の空気を加熱・冷却してその中に波を発生させる熱音響効果によって音を発する。
有効性を評価するため実験したところ、人工喉は平均99.05%の精度で正しい言葉を検出でき、音声を構成する基本音素や音調、単語を識別して音声認識タスクを実行できることを実証した。また喉頭摘出術を受けた人が使用した場合にも、90%以上の精度で発声を検出することができた。
音源としては、安全な5Vの電圧で60dB程度(日常会話に近い)、周波数100〜20kHzの音を発生でき、音声関連の障害者のコミュニケーション能力回復を支援する有効なツールとして活用できる可能性を示唆した。
今回は無声発話(口パク)の実証実験はしていないが、論文著者に聞いたところ、低周波の運動信号を検出する機能を有しているため、検出できる可能性を持っているだろうという。
Source and Image Credits: Yang, Q., Jin, W., Zhang, Q. et al. Mixed-modality speech recognition and interaction using a wearable artificial throat. Nat Mach Intell 5, 169-180(2023). https://doi.org/10.1038/s42256-023-00616-6
関連記事
- 食べずに「のどごし」を体感できる装置、電通大が開発 バーチャル環境で飲食を再現
電気通信大学の研究チームは、喉の皮膚を引っ張る方法で、食べ物を飲み込んだ感覚を再現する嚥下感提示装置を開発した。何も食べてないにもかかわらず、「のどごし」を提示できるという。 - 口パクで音声入力、喉に小型センサーで 東大とソニーCSLが技術開発
視聴覚障害者のための触診リップリーディングから発想を得た。 - 「有線イヤフォン使いは厄介でITリテラシーが低い」? 音楽などの聴き方巡りSNSで物議、実は“炎上商法”かも
あるユーザーがツイートした「有線イヤフォンを使っている人を見ると、ITリテラシーが低く感じられる」という旨の投稿が話題になっている。メーカーや著名人なども反応しているが「炎上商法ではないか」と指摘する声も挙がっている。 - 脳波から言葉を生成するAI「Brain-to-Text」 “声道”への指令を解読、言葉に変換
米University of California, San Franciscoなどによる研究チームは、脳に電極を埋め込み、脳波から言葉を生成する研究報告を発表した。発声した際に声道付近の筋肉に指令を送る脳神経から読み取り、脳波から言葉を生成する。 - 歌声から伴奏を生成するAI「SingSong」 Googleが技術開発
Google Researchに所属する研究者らがは、歌声からその歌に適した伴奏を生成する機械学習モデルを提案した研究報告を発表した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.