スマホで“口パク入力”を気軽にできるアプリ　東大とソニーCSLが「LipLearner」開発：Innovative Tech

東京大学とソニーコンピュータサイエンス研究所（CSL）に所属する研究者らは、口パク（無声発話）を検出し、スマートフォンの入力に使用できるモバイルアプリケーションを提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: ＠shiropen2

　東京大学とソニーコンピュータサイエンス研究所（CSL）に所属する研究者らが発表した論文「LipLearner: Customizable Silent Speech Interactions on Mobile Devices」は、口パク（無声発話）を検出し、スマートフォンの入力に使用できるモバイルアプリケーションを提案した研究報告である。

　事前設定として、使用前にスマートフォンに声を出してコマンドを登録するところから始める。そして、電車などの公共の場でそのコマンドをスマートフォンに向かって無声発話すると、検出して指定した動きが発動する。

電車内においてタブレットのインカメラで口の動きを捉え、口パクで入力している様子

LipLearnerの使用例。（A）ユーザーはスマートフォンに向かってコマンドを一度声に出して記録させる。（B）地下鉄などの公共の場で事前登録したコマンドをスマートフォンに向かって無声発話すると認識する

　音声入力は、プライバシーやセキュリティの問題が発生する恐れがあり公共の場では好まれない、周囲の雑音が多いと話しづらい、発話に障害のある人には利用できない、などの問題がある。プライバシーや社会的受容性の問題に取り組むため、無声発話でも音声認識を可能にするサイレント・スピーチ・インタラクション（SSI）が有望な選択肢として浮上している。

　これまでにもSSIの研究は報告されてきたが、その多くはユーザーから何百ものサンプルを収集する必要があったり、制御された実験室環境で集中的に収集されたこのようなデータは、照明、顔の向き、姿勢などの要因で認識されなかったりする。またモデルの学習プロセスには時間がかかり、ハイエンドのGPUが必要で、万人が気軽に使える技術ではないのが現状だ。

　この研究では、これらの課題を解決するためのSSIを提案する。モデルは、まず数百人の異なる話者によって作成した映像データセットを用いて数回のショットで唇を読み取るための特徴抽出器の事前学習を行う。このデータセットは、照明や背景、カメラ視点などの多様な記録条件をカバーしている。

　ラベル付けしたデータを用いて、入力を既知のクラスに分類する従来の教師あり学習ではなく、特徴量を比較する仕組みを用いる対照学習を採用する。これにより、サンプルが与えられたとき、そのサンプルが未知のクラスに属していたとしても、最も類似したコマンドを見つけられる。

事前学習パイプライン

　予備実験として、さまざまなシチュエーションによる発話データを収集し、照明条件（晴れた屋外、暗い室内など）、ユーザーの姿勢（立つ、座る、歩く）、スマートフォンの持ち方（片手、両手など）に対するモデルの性能とロバスト性を評価した。その結果、このモデルはさまざまな環境下で一貫した性能を発揮し、従来の教師あり手法を超えることを示した。

実験のため異なる照明条件やユーザーの姿勢などを組み合わせた発話シーンを設定

　次に、ユーザーの一度もしくは数回の発話で新規コマンドの登録が可能な技術「Voice2Lip」を導入する。これは従来のように多数のサンプルを収集する必要がなく、声に出して一度もしくは数回コマンドを言うだけで、音声信号から認識したテキストをラベルとして、システムが唇の動きを学習する。これにより、新規コマンドの登録にかかるユーザーの負担を最小限に抑えることができる。

　新規コマンドは自然言語だけでなく、顔の表情で入力できるジェスチャー設定も可能だ。例えば、笑うと笑顔の顔文字が入力されたり、困った顔をすると困った顔の絵文字が入力されたり、などである。このように自由度が高いコマンド設定が行える。

絵文字として登録された顔の表情

　ユーザー調査の結果、モデルは30個のコマンドを一発で認識し、81.7％の精度で認識すると分かった。また、ユーザーから提供されるサンプル数が増えるにつれて性能が向上し、最終的に1コマンド当たり5サンプルで98.8％の精度を達成した。また、ユーザーの主観的なフィードバックにより、LipLearnerは使いやすく、学習しやすいことを示唆した。

　このようにスマートフォン上で素早く始められるLipLearnerは、無声発話による入力が誰でも気軽に使える環境を作り出している。

ユーザー調査の様子

　本論文は、2023年4月に開催予定のHuman-Computer Interaction（HCI）の国際会議「CHI 2023」（Conference on Human Factors in Computing Systems 2023）に採択された研究である。

Source and Image Credits: Su, Zixiong, Shitao Fang, and Jun Rekimoto. "LipLearner: Customizable Silent Speech Interactions on Mobile Devices." arXiv preprint arXiv:2302.05907（2023）; Zixiong Su, Shitao Fang, and Jun Rekimoto. 2023. LipLearner: Customizable Silent Speech Interactions on Mobile Devices. In Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems（CHI ’23）, April 23-28, 2023, Hamburg, Germany. ACM, New York, NY, USA, 21 pages. https://doi.org/10.1145/3544548.3581465

スマホで“口パク入力”を気軽にできるアプリ　東大とソニーCSLが「LipLearner」開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

スマホで“口パク入力”を気軽にできるアプリ 東大とソニーCSLが「LipLearner」開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

スマホで“口パク入力”を気軽にできるアプリ　東大とソニーCSLが「LipLearner」開発：Innovative Tech