このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
東京大学、米ジョージア工科大学などによる研究チームが開発した「SilentSpeller: Towards mobile, hands-free, silent speech text entry using electropalatography」は、口パク(無声発話)で1文字ずつタイピングするハンズフリーの入力システムを提案する。
歩きながらでも入力が行える安定性を持ち、スマートフォンのQWERTY文字入力に匹敵するほどの十分なタイピング速度を兼ね備える。1文字ずつのスペル入力により、これまでの単語ベースで認識する無声発話入力よりも認識可能な語彙(ごい)が大幅に増加した。
音声入力だと、公共の場で使用する場合、プライバシーの侵害の恐れがあり、パスワードやアドレスのような機密情報を扱うこともできない。そこで音声を使わずに無声発話によってハンズフリーの文字入力を行う「サイレント・スピーチ・インタラクション」が注目されている。
無声発話は、無音なため機密性を保ちながら入力できる利点を持つ。だが、無声発話の認識は非常に困難な作業であり、語彙の数が制限される。またユーザーが静止している必要があった。
これら課題に対し今回は、スペルを無声発話で入力するためのシステム「SilentSpeller」を提案する。この手法は、単語そのものを無声発話し単語を認識させるのではなく、単語のスペル1文字ずつを無声発話し認識させることで単語の識別を行う。
スペルの認識は、歯科用リテーナー型デバイスをユーザーに口でくわえてもらう方法を採用する。口腔内には124個のバイナリー静電容量センサーが並び、舌の動きを読み取る。得られたデータはコンピュータにワイヤレス伝送され、機械学習で分類する。
この手法は口にデバイスを入れておかないといけない不便さはあるが、口腔内の上部に固定されるため、ユーザーの動きで生じるノイズに非常に強く、移動中など静止していない環境でも安定して機能する。
また1文字ずつスペル入力するため、これまでの単語ベースの認識方法では区別できなかった、「I」「aye」「eye」や「right」「write」「wright」などの同音異義語を区別できる。
この手法を評価するため、さまざまな実験を行った。実験ではアルファベット26文字が入力できるかではなく、スペル入力で得られた単語を収集する。単語を話すとき音素の発音に影響を与えるように、一緒に話すスペルも互いに影響を与えるからだ。より実用的な環境での使用に向けたテストとなる。
結果は、1164語の単語テストにおいて平均97%の精度を示した。歩きながらの入力で97.5%、座りながらの入力で96.5%の平均認識精度を示し、ほぼ同等であり、歩行の影響はほとんどないことが確認された。また走行中の電車内の騒音環境でも機能することが示された。
タイピング速度は平均37wpmを達成し、音声入力より遅いが、スマートフォンのQWERTY文字入力に匹敵すると分かった。拡張性を示すために、未知の単語100個でテストしたところ、平均94%の精度を示した。ユーザーの習得速度も速く、20分の練習で30wpmを達成した。
Source and Image Credits: Naoki Kimura, Tan Gemicioglu, Jonathan Womack, Richard Li, Yuhui Zhao, Abdelkareem Bedri, Zixiong Su, Alex Olwal, Jun Rekimoto, and Thad Starner. 2022. SilentSpeller: Towards mobile, hands-free, silent speech text entry using electropalatography. In CHI Conference on Human Factors in Computing Systems (CHI ’22). Association for Computing Machinery, New York, NY, USA, Article 288, 1-19. https://doi.org/10.1145/3491102.3502015
Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR