ITmedia NEWS > 科学・テクノロジー >

Twitterのbot自動検知ツールは“正確ではない”研究結果 米MITが発表Innovative Tech

» 2023年06月26日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 米MITに所属する研究者らが発表した論文「Simplistic Collection and Labeling Practices Limit the Utility of Benchmark Datasets for Twitter Bot Detection」は、Twitterのbotアカウントを検出するために使われる既存のサードパーティー製ツールが正確ではないと実証した研究報告である。

 イーロン・マスク氏によるTwitter買収を阻む一因となったのは、botアカウントの多さだといわれている。当時のTwitter社は、デーリーアクティブユーザーの5%が自動化されたアカウントであると主張したが、マスク氏はもっと多いと述べた。

 Twitterは、botアカウントを特定する独自システムを持っているが公開していない。一方で、サードパーティーのbot検出ツールは、Twitterから収集したデータセットと、そのデータセットで訓練された機械学習モデルを使用して、botの微妙な兆候を検出し、人間特有のパターンとそうでないパターンを識別している。これらのモデルは、ソーシャルメディア上でbotの活動を研究するために使用され、数百もしくは数千の論文として発表されている。

Twitterのbot検出のための一般に公開されているベンチマークデータセット

 これらの論文にあるほとんどのベンチマークデータセットは、さまざまな文脈で収集されたデータの集合体である。その多くは特定のツイート(特定のハッシュタグを含むツイートなど)で収集され、収集された各ツイートは人によってbotか人間かのラベル付けが手動で行われる。そして、手動でラベル付けされたデータセットを使用し、特定の文脈内でbotや人間を認識するためのモデルの学習を行う。

 例えば、政治であれば、政治に関連するハッシュタグをいくつかピックアップし、該当するツイートを抽出、これらツイートを人力で人間かbotかのラベル付けを行う。当然そうなると、政治に関係したbotは高い精度で抽出されることになる。今回、研究者らが一般的な分類器でベンチマークデータセットを実行したところ、botと人間を選別する精度が99%の結果を示した。

 このように何かに特化して学習されたbot検出モデルでは、その特化した分野で強力に機能する。だが、ツイート全域をカバーしておらず、botと人間の基本的な違いではなく、特定のデータに強く依存する。

 これらモデルを別の分野のデータセットでテストしたところ、ランダムな予測とほとんど変わらない低い精度を示した。言い換えれば、あるデータセットで学習した分類器は、他のデータセットに一般化しないことを示す。

 また、多くのデータセットにおいて、比較的シンプルなモデル(例えば、アカウントがどれかのツイートを「いいね」したかどうかを見る)でも、より最先端(SOTA)の機械学習モデルと同様の正確性が得られることを発見した。

 これらの結果により、既存のbot検出データセットは、その単純なデータ収集によって汎用性が低いことを示した。

ベンチマークデータセットにおけるシンプルなモデルとSOTAのモデルとの性能比較

 最後に、研究者らは既存のbot検出データセットを前処理として使用する場合は、どのような種類のバイアスが存在する可能性があるかを慎重に検討する必要があると注意喚起する。また根本的な解決策として、Twitterなどのソーシャルメディア自体が、高品質のグランドトゥルースラベルを持つ豊富で堅牢なデータを研究者らに提供すべきという。

Source and Image Credits: Chris Hays, Zachary Schutzman, Manish Raghavan, Erin Walk, and Philipp Zimmer. 2023. Simplistic Collection and Labeling Practices Limit the Utility of Benchmark Datasets for Twitter Bot Detection. In Proceedings of the ACM Web Conference 2023(WWW ’23). Association for Computing Machinery, New York, NY, USA, 3660-3669. https://doi.org/10.1145/3543507.3583214



Copyright © ITmedia, Inc. All Rights Reserved.