1文字ずつ口パクでスペル入力できるシステム、東大などが技術開発 タイピング速度はスマホに匹敵:Innovative Tech
東京大学、米ジョージア工科大学などによる研究チームは、口パク(無声発話)で1文字ずつタイピングするハンズフリーの入力システムを開発した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
東京大学、米ジョージア工科大学などによる研究チームが開発した「SilentSpeller: Towards mobile, hands-free, silent speech text entry using electropalatography」は、口パク(無声発話)で1文字ずつタイピングするハンズフリーの入力システムを提案する。
歩きながらでも入力が行える安定性を持ち、スマートフォンのQWERTY文字入力に匹敵するほどの十分なタイピング速度を兼ね備える。1文字ずつのスペル入力により、これまでの単語ベースで認識する無声発話入力よりも認識可能な語彙(ごい)が大幅に増加した。
音声入力だと、公共の場で使用する場合、プライバシーの侵害の恐れがあり、パスワードやアドレスのような機密情報を扱うこともできない。そこで音声を使わずに無声発話によってハンズフリーの文字入力を行う「サイレント・スピーチ・インタラクション」が注目されている。
無声発話は、無音なため機密性を保ちながら入力できる利点を持つ。だが、無声発話の認識は非常に困難な作業であり、語彙の数が制限される。またユーザーが静止している必要があった。
これら課題に対し今回は、スペルを無声発話で入力するためのシステム「SilentSpeller」を提案する。この手法は、単語そのものを無声発話し単語を認識させるのではなく、単語のスペル1文字ずつを無声発話し認識させることで単語の識別を行う。
スペルの認識は、歯科用リテーナー型デバイスをユーザーに口でくわえてもらう方法を採用する。口腔内には124個のバイナリー静電容量センサーが並び、舌の動きを読み取る。得られたデータはコンピュータにワイヤレス伝送され、機械学習で分類する。
この手法は口にデバイスを入れておかないといけない不便さはあるが、口腔内の上部に固定されるため、ユーザーの動きで生じるノイズに非常に強く、移動中など静止していない環境でも安定して機能する。
また1文字ずつスペル入力するため、これまでの単語ベースの認識方法では区別できなかった、「I」「aye」「eye」や「right」「write」「wright」などの同音異義語を区別できる。
この手法を評価するため、さまざまな実験を行った。実験ではアルファベット26文字が入力できるかではなく、スペル入力で得られた単語を収集する。単語を話すとき音素の発音に影響を与えるように、一緒に話すスペルも互いに影響を与えるからだ。より実用的な環境での使用に向けたテストとなる。
結果は、1164語の単語テストにおいて平均97%の精度を示した。歩きながらの入力で97.5%、座りながらの入力で96.5%の平均認識精度を示し、ほぼ同等であり、歩行の影響はほとんどないことが確認された。また走行中の電車内の騒音環境でも機能することが示された。
タイピング速度は平均37wpmを達成し、音声入力より遅いが、スマートフォンのQWERTY文字入力に匹敵すると分かった。拡張性を示すために、未知の単語100個でテストしたところ、平均94%の精度を示した。ユーザーの習得速度も速く、20分の練習で30wpmを達成した。
Source and Image Credits: Naoki Kimura, Tan Gemicioglu, Jonathan Womack, Richard Li, Yuhui Zhao, Abdelkareem Bedri, Zixiong Su, Alex Olwal, Jun Rekimoto, and Thad Starner. 2022. SilentSpeller: Towards mobile, hands-free, silent speech text entry using electropalatography. In CHI Conference on Human Factors in Computing Systems (CHI ’22). Association for Computing Machinery, New York, NY, USA, Article 288, 1-19. https://doi.org/10.1145/3491102.3502015
関連記事
- 口パクで音声入力できるマスク、東大などが開発 約8割の精度で音声を認識
東京大学と産業技術総合研究所の研究チームは、マスク着用時に口パク(無声発話)による音声入力が行えるマスク型デバイスを開発した。口パクによって変形するマスクを内蔵するセンサーで読み取り、音声アシスタントへの入力コマンドに変換する。 - VRで口の中を触られている感覚を再現 VRヘッドセットから超音波を放射 「虫が唇を這う」などが再現可能
米Carnegie Mellon UniversityのFuture Interfaces Groupは、VR HMD(ヘッドマウントディスプレイ)に空中超音波フェーズドアレイを統合し、VR体験に応じて超音波で唇や口腔内に触覚を与えるシステムを開発した。 - スピーチに応じた“ろくろ回しポーズ”を自動生成、映像に反映 中国などの研究チームが技術開発
中国科学技術大学とJD AI Researchの研究チームは、発話に応じた上半身の動作を自動で生成するモデルを開発した。単調な動きだけを繰り返すのではなく、韻律(抑揚、音調、強勢、音長など)を考慮した自然な動作を生成する。 - 味をデジタル化する「電気味覚」の可能性(前編) 「味をSNSへ投稿する」を実現するための研究
味をデジタル化を実現するために、世界中の研究室で研究が進んでおり、その基盤になるのが味のデジタル化において重要な要素である「電気味覚」という現象だ。一体どのような現象なのか。解説する。 - 空中に書いた指文字を入力できるスマートウォッチ 中国の研究チームが開発
中国の浙江大学の研究チームは、表面を必要とせず、空中で指(人差し指)を動かして文字が書けるスマートウォッチを開発した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.