ITmedia NEWS > 科学・テクノロジー >
セキュリティ・ホットトピックス

12m先から指の動きをスマホで撮影、デバイスに入力した内容を復元 米シカゴ大が検証Innovative Tech

» 2023年11月30日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 米シカゴ大学に所属する研究者らが発表した論文「Towards a General Video-based Keystroke Inference Attack」は、遠距離から撮影した指の動きを解析することにより、タイピングされた内容を推測する新しい攻撃方法を提案した研究報告である。実験では、12m先から撮影したビデオを使用して、タイピングされた内容を復元することに成功している。

攻撃者が60ドル未満の望遠レンズを付けたスマートフォンを建物内(窓の後ろ)に隠し、約12m離れた中庭でタイピングする被害者を録画している様子

 キーストロークからタイピングされた内容を復元されると、機密性の高いメールやパスワードなどの情報が盗まれる危険がある。

 この研究は、公共の場で行われる新しいビデオベースのキーストローク推論攻撃を提案するものである。攻撃者は、市販のRGBカメラを使用して、ターゲットのタイピングする手の正面からの指を記録し、ビデオ分析により、タイプされた内容を復元する。

 この攻撃は、ターゲットのタイピングする手の正面ビュー以外に、副次的なデータなどを必要としない点で、先行研究と大きく異なる。すなわち、この攻撃は事前トレーニング、キーボードに関する知識、ターゲットからのトレーニングデータ、現地センサー、副次的なチャネルを必要としない。

ソファに座る女性のタイピングをビデオ撮影している攻撃者

 この手法の核となるのは、二層構造の自己教師ありシステムである。このシステムでは、ターゲットビデオにおける手の追跡のノイズのある結果を活用し、キーストロークの検出とクラスタリングを行う。続いて、言語ベースの隠れマルコフモデル(HMM)を用いてキーストロークを識別する。これらの初期ラベルは、複数の整合性チェックでフィルタリングし、ビデオフレームにおいて高信頼性のラベルを生成する。

 これらのラベルは、その後、ビデオからキーストロークを検出し識別するための3D-CNNモデルの訓練に使用される。この二層プロセスで推論が行われる。

キーストローク推論手法

 多様な条件下の実験を通じて、ビデオベースの攻撃の評価が行われた。評価条件には、さまざまなシナリオが含まれ、これには屋内外の環境、攻撃距離や障害物の変化、キーボードデバイス(キーボードサイズやレイアウトの違い、机の上か膝の上での使用)などが含まれる。

 16人の異なるユーザーが参加し、これらのユーザーはそれぞれ異なるタイピングスタイル(例えば、異なる指の組み合わせを使用する)や能力(例えば、高速タイピング)を持つ。結果は、ほぼ全てのシナリオにおいて高い効果を示し、大きく異なるタイピング行動を持つ参加者全体にわたって良好なパフォーマンスを収めた。

 実験には、以下のようなシナリオも含まれる。1階の中庭でタイピングしているターゲットを録画するため、近くの建物の2階にある部屋からガラス越しにスマートフォンを設置した。このスマートフォンのカメラには60ドル未満の望遠レンズが取り付けられている。撮影距離は約12m。

 この設定での実験結果は、タイプした単語の82.4%を回復し、87%の高い意味的類似性を達成した。また、ターゲットから4.5m離れた位置からの撮影では、タイプした単語の96.8%を正確に回復できた。

Source and Image Credits: Zhuolin Yang, Yuxin Chen, Zain Sarwar, Hadleigh Schwartz, Ben Y. Zhao and Haitao Zheng. Towards a General Video-based Keystroke Inference Attack.



Copyright © ITmedia, Inc. All Rights Reserved.