ITmedia NEWS > 速報 >
ニュース
» 2019年11月25日 08時00分 公開

AirPodsでヒソヒソ音声入力 口を手で押さえるジェスチャーで 清華大学など発表

直感的なジェスチャーでひそひそ音声入力を起動できる。

[山下裕毅,ITmedia]

 中国・清華大学と浙江大学の研究チームは、発話中に口を手で押さえると小声で音声入力ができるインタフェース「PrivateTalk」を開発した。

photo PrivateTalk実行時の様子
photo 片手で口を覆うように押さえ(論文では「Hand-On-Mouthジェスチャー」と表現している)、両耳のイヤフォンで検出する

 小声入力は、片側から口を手で覆うしぐさで実行する。左右に装着した2つのBluetoothマイク付きイヤフォン(実験ではAirPodsを使用)で、受信する信号に違いがあるかどうかで手で口を押えているかを判断。押えているときだけ音声入力を行う。

photo PrivateTalkのセットアップ図。音声を取得する2台のマイク付きイヤフォンがそれぞれスマートフォンに接続され、PCと通信する

 2つのマイク付きイヤフォンは、2台のスマートフォンにそれぞれBluetoothで接続。さらにTCP接続を介し、ラップトップPCで実行サーバにつながる。これにより、両方のマイクを同時に使用できる。それぞれが拾った音声から振幅特性と周波数特性を抽出し、音声入力を行うかどうかを決める。評価テストの結果、判定の精度は98.33%と高い認識率を実証したという。

photo 音声検出の概要。左右のマイク付きイヤフォンで取得する音声は、赤と緑の波形で表示されている

 この手法は、口唇の動きを隠すことができ、周りに音が漏れる心配もない。そのため街中や職場、学校、家など、周囲に人がいる状況でも、恥ずかしがらずに音声入力ができ、プライバシーの問題も意識しなくて済むという。

 音声からは周囲などの環境ノイズを排除し、ユーザーの発話のみ抽出する。ただし、 横から話しかけられると片方の音声が大きくなり差が生じ、意図せず音声入力が発動する場合がある。これは今後の課題として、 声紋認識で対応する予定。

Copyright © ITmedia, Inc. All Rights Reserved.