ITmedia NEWS > 科学・テクノロジー >
ITmedia AI+ AI活用のいまが分かる

口パクで長文の音声入力ができるメガネ型デバイス 立命館大が開発Innovative Tech

» 2023年01月23日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 立命館大学とデジタルスピリッツテック社の五十嵐雄也、双見京介、村尾和哉らが発表した論文「Silent Speech Eyewear Interface: Silent Speech Recognition Method using Eyewear with Infrared Distance Sensors」は、口パク(無声発話)による音声入力が行えるメガネ型デバイスと耳掛け型マイクデバイスを提案した研究報告である。

メガネ型デバイスのプロトタイプ

 これまでにも口パクで音声入力できるサイレント・スピーチ・インタラクション(SSI)の研究は多数報告が上がっており、例えば、口パクで音声入力できるマスクやイヤフォン、顎下2カ所にセンサーを取り付ける方法など、他にもたくさんある。

 今回は、赤外線距離センサーを備えたアイウェアと耳掛け型マイクからなるセンサーデバイスを用いて、無声発話を認識する方法を提案する。

 プロトタイプでは、メガネの下縁に配置したセンサー6個(2アレイ)で頬の動きをセンシングし、耳掛け型マイクの顎関節側に配置したセンサー6個(2アレイ)で顎関節の動きをセンシングする。これにより、頬と顎関節、顎の3点を測定する。

 まずデバイスに取り付けた複数の赤外線距離センサーが、発話中の口と連動した顔の皮膚とセンサーの距離の変化を取得して、次に得られた時系列データにDTW(Dynamic Time Warping)を適用し、音声コマンドを認識する。

 認識精度を評価するため、実験では参加者10人を対象に、音声コマンド「音楽」「再生」「停止」「次へ」「戻る」の5種類を使用し実施した。その結果、高い精度を達成し、ハンズフリーの簡易的な音声入力に対する実現可能性を示した。

 また、頬と顎関節、顎の3点によるセンシングでなく、顎と顎関節、もしくは頬と顎関節の2点によるセンシングと頬の1点によるセンシングでの認識精度の評価も行った。その結果、耳掛け型マイク単体やアイウェア単体でも提案手法が利用できる可能性を示した。

 次に、長文の認識精度を評価する実験を行った。文言は次の10通りである。

  • スポーツニュースを教えて
  • タイマーを3分セットして
  • 明日の天気は?
  • 注文した商品の配送状況を確認する
  • 買い物リストは何?
  • リラックスできるプレイリストを再生
  • 近くのコンビニを検索
  • この曲のタイトルを教えて
  • 最寄りの駅に行きたい
  • 回線を起動する

 結果、ほとんどの音声コマンドが正しく認識され、長い音声コマンドに対する提案手法の有効性を示した。

 今回の手法は、既に普及している一般メガネや耳掛け型マイクをはじめ、今後普及するAR/VR/オーディオ用のアイウェア機器に対して、口パクによる音声入力機能を簡便かつ低コストに付与できる点に特徴がある。そのため、口パクによる音声入力機能をウェアラブル環境でいつでもどこでも使用するための有望な手段になると期待できる。

Source and Image Credits: Yuya Igarashi, Kyosuke Futami, and Kazuya Murao. 2022. Silent Speech Eyewear Interface: Silent Speech Recognition Method using Eyewear with Infrared Distance Sensors. In Proceedings of the 2022 ACM International Symposium on Wearable Computers(ISWC ’22). Association for Computing Machinery, New York, NY, USA, 33-38. https://doi.org/10.1145/3544794.3558458



Copyright © ITmedia, Inc. All Rights Reserved.