ITmedia NEWS > AI+ >
ニュース
» 2021年03月12日 06時27分 公開

口パクの顎の動きで音声認識 イヤフォンに後付け可能Innovative Tech

声を出さない音声入力が可能に。

[山下裕毅,ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 米ニューヨーク州立大学ストーニーブルック校、インド工科大学ガンディーナガル校、米カリフォルニア・マーセッド大学、米テキサス大学アーリントン校による研究チームが開発した「JawSense」は、顎(あご)の動きで音声認識する音声コマンド・ウェアラブルデバイスだ。

 このデバイスは耳に装着し、音声認識をハンズフリーで行う。ヘッドフォンやイヤフォンへの後付けも可能だ。

photo JawSenseのイメージ図
photo JawSenseのプロトタイプ

 音声入力は、公共の場で使用する場合、機密情報漏えいやプライバシーの侵害の恐れがある。また、ノイズの多い環境では安定して使用できない。研究チームは、これら課題を解決するため、発話時に確実に動作する顎に着目した。

 今回の研究は、顎を動かすだけでコンピュータとの対話が行えるインタフェースを構築する。顎の動きと音素の関係をモデル化し、9つの音素を認識するための分類アルゴリズムを開発。発話時に発生する顎や頬の筋肉からの運動信号を利用し、音声なしの音素を認識する。

 プロトタイプは、顎関節付近に3軸加速度センサーを配置する耳かけ型ハードウェアで構成。顎の動きは、顎関節付近の皮膚表面に搭載した3軸加速度センサーで捉える。うなずき、頭の動き、あくびなど、人の動きに起因する非音声信号と外部からの可聴音によるノイズを抽出し除去する前処理を行う。

 声を出して話しているのか口パクなのかを区別するために、周波数スペクトルを解析して可聴音素を検出し、音声付き音素か音声なし音素かを区別する。

photo システムの概要図

 6人の被験者を対象に、9つの音素について実験したところ、騒がしい環境であるにもかかわらず、音声なし音素検出で92%の分類精度を達成したという。今後は、より小さなフォームファクターでの連続音声認識を目指す。

 動画はこちら

Copyright © ITmedia, Inc. All Rights Reserved.