口パクで音声入力できるイヤフォン　口を動かした際の耳穴の変形から予測　米国チームが開発：Innovative Tech

米University at Buffalo, State University of New York、米ノースウェスタン大学、米ワシントン大学、米コロラド大学の研究チームは、口パク（無声発話）で音声入力できるイヤフォンを開発した。口を動かした際の耳穴の変化を取得して入力を区別する。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

　米University at Buffalo, State University of New York、米ノースウェスタン大学、米ワシントン大学、米コロラド大学の研究チームが開発した「EarCommand: “Hearing” Your Silent Speech Commands In Ear」は、口パク（無声発話）で音声入力できるイヤフォンだ。口を動かした際の耳穴の変化を取得して入力を区別する。

イヤフォンで口パクを認識する仕組み。イヤフォンから発する超音波（緑の矢印）が外耳道を伝搬し、跳ね返る反射信号（ピンクの矢印）をイヤフォンが捉える。口パクによって外耳道の形状は違うため、捉えた信号から口パクを復元する

　音声を発することなく口の動きだけでモバイル機器を操作するサイレントスピーチインタラクション（Silent Speech Interaction、SSI）が広く研究されている。音声入力による情報漏えいやプライバシー侵害を回避するためだ。

　これまでのサイレントスピーチインタラクションは特殊な機器を必要としていたが、今回はウェアラブルデバイスとして一般的になってきたイヤフォンだけで実行する耳内音響センシング手法「EarCommand」を提案する。

　仕組みは、口パクした際の外耳道内の変形を捉えて違いを認識する。具体的には、イヤフォン内蔵の内向きスピーカーから近接超音波信号を放射し、外耳道内を広がり、内向きのマイクで反射エコーを受信する。口パク時の外耳道の変形に起因するチャンネル応答の特徴パターンを分析することで、発話を認識・解釈する。

　発話を解釈するために、単語レベルおよび文レベルの無音発話コマンドを認識する畳み込みリカレントニューラルネットワーク（CRNN）をベースにした枠組みを提案した。

EarCommandのプロトタイプ

　32個の単語レベルコマンドと25個の文レベルコマンドを用いたプロトタイプテストでは、単語レベル認識で10.02％、文レベル認識で12.33％のWER（word error rate）を達成し、無声発話コマンドの推定に有効であることを示した。

　さらに、周囲の雑音、体の動き、マスクの装着、装着角度など、多様なシナリオの下での性能を検証するために複数の実験を行った。その結果、さまざまな状況下で強いロバスト性と信頼性を示し、イヤフォン型音声インタフェースの有望な可能性を示唆した。ワイヤレスイヤフォンへの適応を期待したい。

Source and Image Credits: Yincheng Jin, Yang Gao, Xuhai Xu, Seokmin Choi, Jiyang Li, Feng Liu, Zhengxiong Li, and Zhanpeng Jin. 2022. EarCommand: “Hearing” Your Silent Speech Commands In Ear. Proc. ACM Interact. Mob. Wearable Ubiquitous Technol. 6, 2, Article 57 (July 2022), 28 pages. https://doi.org/10.1145/3534613

口パクで音声入力できるイヤフォン　口を動かした際の耳穴の変形から予測　米国チームが開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

口パクで音声入力できるイヤフォン 口を動かした際の耳穴の変形から予測 米国チームが開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

口パクで音声入力できるイヤフォン　口を動かした際の耳穴の変形から予測　米国チームが開発：Innovative Tech