Twitterのbot自動検知ツールは“正確ではない”研究結果 米MITが発表:Innovative Tech
米MITに所属する研究者らは、Twitterのbotアカウントを検出するために使われる既存のサードパーティー製ツールが正確ではないと実証した研究報告を発表した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
米MITに所属する研究者らが発表した論文「Simplistic Collection and Labeling Practices Limit the Utility of Benchmark Datasets for Twitter Bot Detection」は、Twitterのbotアカウントを検出するために使われる既存のサードパーティー製ツールが正確ではないと実証した研究報告である。
イーロン・マスク氏によるTwitter買収を阻む一因となったのは、botアカウントの多さだといわれている。当時のTwitter社は、デーリーアクティブユーザーの5%が自動化されたアカウントであると主張したが、マスク氏はもっと多いと述べた。
Twitterは、botアカウントを特定する独自システムを持っているが公開していない。一方で、サードパーティーのbot検出ツールは、Twitterから収集したデータセットと、そのデータセットで訓練された機械学習モデルを使用して、botの微妙な兆候を検出し、人間特有のパターンとそうでないパターンを識別している。これらのモデルは、ソーシャルメディア上でbotの活動を研究するために使用され、数百もしくは数千の論文として発表されている。
これらの論文にあるほとんどのベンチマークデータセットは、さまざまな文脈で収集されたデータの集合体である。その多くは特定のツイート(特定のハッシュタグを含むツイートなど)で収集され、収集された各ツイートは人によってbotか人間かのラベル付けが手動で行われる。そして、手動でラベル付けされたデータセットを使用し、特定の文脈内でbotや人間を認識するためのモデルの学習を行う。
例えば、政治であれば、政治に関連するハッシュタグをいくつかピックアップし、該当するツイートを抽出、これらツイートを人力で人間かbotかのラベル付けを行う。当然そうなると、政治に関係したbotは高い精度で抽出されることになる。今回、研究者らが一般的な分類器でベンチマークデータセットを実行したところ、botと人間を選別する精度が99%の結果を示した。
このように何かに特化して学習されたbot検出モデルでは、その特化した分野で強力に機能する。だが、ツイート全域をカバーしておらず、botと人間の基本的な違いではなく、特定のデータに強く依存する。
これらモデルを別の分野のデータセットでテストしたところ、ランダムな予測とほとんど変わらない低い精度を示した。言い換えれば、あるデータセットで学習した分類器は、他のデータセットに一般化しないことを示す。
また、多くのデータセットにおいて、比較的シンプルなモデル(例えば、アカウントがどれかのツイートを「いいね」したかどうかを見る)でも、より最先端(SOTA)の機械学習モデルと同様の正確性が得られることを発見した。
これらの結果により、既存のbot検出データセットは、その単純なデータ収集によって汎用性が低いことを示した。
最後に、研究者らは既存のbot検出データセットを前処理として使用する場合は、どのような種類のバイアスが存在する可能性があるかを慎重に検討する必要があると注意喚起する。また根本的な解決策として、Twitterなどのソーシャルメディア自体が、高品質のグランドトゥルースラベルを持つ豊富で堅牢なデータを研究者らに提供すべきという。
Source and Image Credits: Chris Hays, Zachary Schutzman, Manish Raghavan, Erin Walk, and Philipp Zimmer. 2023. Simplistic Collection and Labeling Practices Limit the Utility of Benchmark Datasets for Twitter Bot Detection. In Proceedings of the ACM Web Conference 2023(WWW ’23). Association for Computing Machinery, New York, NY, USA, 3660-3669. https://doi.org/10.1145/3543507.3583214
関連記事
- “13歳少女”のなりすましbotで、子供狙う大人の動向を検証 ほとんどがWebカメラへ誘導
イスラエルのHebrew University of Jerusalemと米ジョージア州立大学に所属する研究者らは、作成した複数の児童に扮したチャットbot(ハニーポット)に対して大人たちがどのようなアプローチを仕掛けてくるかを調査した研究報告を発表した。 - YouTuber向けカメラマンロボット 出演者の動きや話をAIで理解、最適なカメラワークを実行
カナダのトロント大学とシンガポールマネジメント大学に所属する研究者らは、出演者の動きや話の内容に応じて自律的に動くカメラマンロボットを提案した研究報告を発表した。 - TwitterのAPI変更でWordPress.comもブログの自動ツイート終了 Mastodon対応へ【訂正あり】
WordPress.comが、ブログの自動ツイートサービスを終了した。TwitterによるAPI変更で料金が月額4万2000ドルになったため。Tumblr、Facebook、LinkedInに加え、InstagramとMastodonでの自動共有を可能にする計画だ。 - TwitterのマスクCEO、「おすすめ」に表示するのは認証済みアカウントのみにすると予告【追記あり】
TwitterのマスクCEOは、4月15日から「おすすめ」タブには認証済みアカウントのみ表示するとツイートした。Twitterは4月1日から従来の青いチェックマークは削除すると予告している。「これはbotに対処する唯一現実的な方法」とマスク氏。 - マスクCEO、Twitterの無料API終了は「悪質なbotの排除」と説明 有料APIは月100ドル程度に
無料APIを2月9日に終了し、有料APIに移行すると突然発表した米Twitter。同社CEOのイーロン・マスク氏は、他のユーザーにリプライする形でAPI有料化について説明。悪質なbotの排除が目的としている。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.