検索
ニュース

匿名データから個人の特定に成功、精度は50%以上 英ICLやTwitter社らが匿名化の欠陥を指摘Innovative Tech

英Imperial College London(ICL)などの研究チームは、スマートフォンなどから匿名で収集する個人間の交流データなどから50%以上の確率で個人を特定できることを実証し、匿名化の欠陥を指摘した論文を発表した。

Share
Tweet
LINE
Hatena

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

 英Imperial College London(ICL)とUniversity of Oxford、スイスのUniversita della Svizzera italiana、Twitter UK、イタリアのUniversity of Naples Federico IIによる研究チームが発表した「Interaction data are identifiable even across long periods of time」は、スマートフォンなどから匿名で収集する個人間の交流データなどから50%以上の確率で個人を特定できることを実証し、匿名化の欠陥を指摘した論文だ。


個人間の交流ネットワークの図。黄色の点が本人、灰色の点が1ホップ目の交流関係者、紫の点が2ホップ目の交流関係者

 現在、多数の企業(携帯電話キャリアやSNSやチャットアプリの運営業者など)がスマートフォンから膨大な量の個人の匿名データを収集している。これら匿名データは、製品の開発、ターゲットを絞った広告の作成、政治動員に及ぼす影響、サービスの調査、データの販売などに使われる。

 欧州連合の一般データ保護規則(GDPR)やカリフォルニア州消費者プライバシー法(CCPA)など、現行の多くの法域では、企業はこれらデータを匿名化(または非識別化) している限り、本人の同意なしに第三者に共有または販売が行えるのが現状だ。

 しかし、この論文では仮名を使ったとしても、膨大な匿名データから個人をそれなりに特定できることを2つの実験を根拠に指摘している。1つ目は、携帯電話サービスで、14週間にわたる加入者4万3606人のやりとりを詳細に記録した個人間の交流データを使用したものだ。

 研究チームは、これら加入者の交流パターンを認識するための深層学習モデルを構築した。このモデルを適応した結果、2ホップの交流ネットワークに基づいて、52.4%の人を識別することに成功した。ここでいう2ホップとは、その人の知り合いの知り合いという交流関係を示す。

 このモデルの精度は、時間が経過してもゆっくりとしか低下せず、20週間後にも24%の人を正しく識別した。 さらにこのモデルは、その人の直接の連絡先とのやりとりのみ(1ホップ)を使っても、15%の確率でその人を特定できた。

 2つ目の実験は、Bluetoothを利用してユーザー間の近接データを収集する追跡アプリを使用したものだ。4週間かけて得られた大学生587人の近接データを使用し分析した結果、 1ホップのインタラクションネットワークに基づいて、26.4%の確率で個人を特定することに成功した。

 この結果は、Bluetoothを利用した近接データを中核にしている、病気のまん延を抑制することを目的としたCOVID-19追跡アプリ自体の妥当性が崩れる可能性を示唆した。

 これらのことから、個人間の交流データは、匿名化していても長期にわたって個人を特定できることを示し、現行の匿名化策では、人々のプライバシーを十分に保護できていない可能性を示唆した。

 今回の研究成果は、コードを一般公開せず、科学的な目的のためにその分野の研究者の要求に応じてのみコードを公開するとしている。

Source and Image Credits: Cretu, AM., Monti, F., Marrone, S. et al. Interaction data are identifiable even across long periods of time. Nat Commun 13, 313 (2022). https://doi.org/10.1038/s41467-021-27714-6



Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る