口パクで長文の音声入力ができるメガネ型デバイス 立命館大が開発:Innovative Tech
立命館大学とデジタルスピリッツテック社の五十嵐雄也、双見京介、村尾和哉らは、口パク(無声発話)による音声入力が行えるメガネ型デバイスと耳掛け型マイクデバイスを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
立命館大学とデジタルスピリッツテック社の五十嵐雄也、双見京介、村尾和哉らが発表した論文「Silent Speech Eyewear Interface: Silent Speech Recognition Method using Eyewear with Infrared Distance Sensors」は、口パク(無声発話)による音声入力が行えるメガネ型デバイスと耳掛け型マイクデバイスを提案した研究報告である。
これまでにも口パクで音声入力できるサイレント・スピーチ・インタラクション(SSI)の研究は多数報告が上がっており、例えば、口パクで音声入力できるマスクやイヤフォン、顎下2カ所にセンサーを取り付ける方法など、他にもたくさんある。
今回は、赤外線距離センサーを備えたアイウェアと耳掛け型マイクからなるセンサーデバイスを用いて、無声発話を認識する方法を提案する。
プロトタイプでは、メガネの下縁に配置したセンサー6個(2アレイ)で頬の動きをセンシングし、耳掛け型マイクの顎関節側に配置したセンサー6個(2アレイ)で顎関節の動きをセンシングする。これにより、頬と顎関節、顎の3点を測定する。
まずデバイスに取り付けた複数の赤外線距離センサーが、発話中の口と連動した顔の皮膚とセンサーの距離の変化を取得して、次に得られた時系列データにDTW(Dynamic Time Warping)を適用し、音声コマンドを認識する。
認識精度を評価するため、実験では参加者10人を対象に、音声コマンド「音楽」「再生」「停止」「次へ」「戻る」の5種類を使用し実施した。その結果、高い精度を達成し、ハンズフリーの簡易的な音声入力に対する実現可能性を示した。
また、頬と顎関節、顎の3点によるセンシングでなく、顎と顎関節、もしくは頬と顎関節の2点によるセンシングと頬の1点によるセンシングでの認識精度の評価も行った。その結果、耳掛け型マイク単体やアイウェア単体でも提案手法が利用できる可能性を示した。
次に、長文の認識精度を評価する実験を行った。文言は次の10通りである。
- スポーツニュースを教えて
- タイマーを3分セットして
- 明日の天気は?
- 注文した商品の配送状況を確認する
- 買い物リストは何?
- リラックスできるプレイリストを再生
- 近くのコンビニを検索
- この曲のタイトルを教えて
- 最寄りの駅に行きたい
- 回線を起動する
結果、ほとんどの音声コマンドが正しく認識され、長い音声コマンドに対する提案手法の有効性を示した。
今回の手法は、既に普及している一般メガネや耳掛け型マイクをはじめ、今後普及するAR/VR/オーディオ用のアイウェア機器に対して、口パクによる音声入力機能を簡便かつ低コストに付与できる点に特徴がある。そのため、口パクによる音声入力機能をウェアラブル環境でいつでもどこでも使用するための有望な手段になると期待できる。
Source and Image Credits: Yuya Igarashi, Kyosuke Futami, and Kazuya Murao. 2022. Silent Speech Eyewear Interface: Silent Speech Recognition Method using Eyewear with Infrared Distance Sensors. In Proceedings of the 2022 ACM International Symposium on Wearable Computers(ISWC ’22). Association for Computing Machinery, New York, NY, USA, 33-38. https://doi.org/10.1145/3544794.3558458
関連記事
- 口パクで音声入力できるイヤフォン 口を動かした際の耳穴の変形から予測 米国チームが開発
米University at Buffalo, State University of New York、米ノースウェスタン大学、米ワシントン大学、米コロラド大学の研究チームは、口パク(無声発話)で音声入力できるイヤフォンを開発した。口を動かした際の耳穴の変化を取得して入力を区別する。 - 音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力
ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授は、キーボードやマウスなどを使用せず、音声入力だけで長い文章が書ける技術を開発した。 - 1文字ずつ口パクでスペル入力できるシステム、東大などが技術開発 タイピング速度はスマホに匹敵
東京大学、米ジョージア工科大学などによる研究チームは、口パク(無声発話)で1文字ずつタイピングするハンズフリーの入力システムを開発した。 - 口パクで音声入力できるマスク、東大などが開発 約8割の精度で音声を認識
東京大学と産業技術総合研究所の研究チームは、マスク着用時に口パク(無声発話)による音声入力が行えるマスク型デバイスを開発した。口パクによって変形するマスクを内蔵するセンサーで読み取り、音声アシスタントへの入力コマンドに変換する。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.