「AIに毒を盛る」──学習用データを改ざんし、AIモデルをサイバー攻撃　Googleなどが脆弱性を発表：Innovative Tech

Google、ETH Zurich、NVIDIA、Robust Intelligenceに所属する研究者らは、学習用データセットの一部を改ざんし、それらを学習した機械学習モデルを攻撃する手法を提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: ＠shiropen2

　米Google、ETH Zurich、NVIDIA、Robust Intelligenceに所属する研究者らが発表した論文「Poisoning Web-Scale Training Datasets is Practical」は、学習用データセットの一部を改ざんし、それらを学習した機械学習モデルを攻撃する手法を提案した研究報告である。

　機械学習モデルの学習用データセットには、インターネットをクロールして収集した大量のデータサンプルが含まれるWebスケールデータセットがある。だが、これらの収集したデータの信頼性が保証されているわけではない。信頼性を保証するには、手作業でデータを収集して各サンプルの品質を保証しなければならないが、大規模になるとほぼ不可能である。

　この研究では、学習データセットに使われる前にデータへ毒（悪意ある改ざん）を仕込み、それらを学習した機械学習モデルを攻撃する手法を提案する。このような攻撃を「データポイズニング」（Data poisoning）と呼び、攻撃者がデータセットを操作して機械学習モデルをだます。

　例えば、人種差別や性差別などのバイアスを悪化させたり、モデルに何らかのバックドアを埋め込んで学習後のモデルの動作を制御したりすることを可能にする。

　今回は2種類のデータポイズニング攻撃（Split-view data poisoningとFrontrunning data poisoning）を紹介する。

　1つ目の攻撃（Split-view data poisoning）では、大規模データセット（LAION-400Mなど）を対象とし、データセット管理者が収集時に見たデータと、エンドユーザーが学習時に見たデータが（有意かつ任意に）異なる場合があるという事実を利用するもの。

　具体的には、攻撃者が期限切れのドメインをいくつか購入し、Webサイト内を変更することで攻撃を行う。この攻撃は、ドメインネームシステム（DNS）が特定の個人や組織にドメインの永久的な所有権を与えるのではない事実に基づいており、期限切れのドメインに内在する信頼を悪用するというものである。

　実験では、10種類の一般的なWebスケールデータセットを用い、この攻撃の実現可能性を実際に調査した。その結果、60米ドル程度で2022年にLAION-400MまたはCOYO-700Mデータセットの0.01％に毒を注入することに成功した。

10種類のデータセットに対してSplit-view data poisoningで攻撃した脆弱性

　2つ目の攻撃（Frontrunning data poisoning）では、ユーザーが作成したコンテンツの定期的なスナップショットからなる一般的なデータセットを利用するというもの。ここでいうデータセットの代表的なのは、Wikipediaである。

　WikipediaのようなWebサイトでは、データのクロールを阻止するために、コンテンツのスナップショットを直接ダウンロードできるようにしている。攻撃者としては、スナップショットに含まれる前に、Wikipediaの記事に対して悪意ある修正を行って毒を盛ることができる。

　Wikipediaは、この攻撃に限らず、悪意ある編集が行われると短い時間で修正される。短時間で修正されると攻撃が成り立たないため、この攻撃では修正される前にスナップショットされるタイミングを予測して適切な時期に修正を行う。各Wikipedia記事のスクレイピング時間を予測してピンポイントで攻撃するわけだ。

　データセットに毒を盛ることは、たとえデータのごく一部に影響を与えたとしても、機械学習モデルに大きな影響を与える可能性がある。例えば、良性ラベルが付いた画像全ての一部（右下など）に小さなマークを追加したとする。すると、機械学習モデルはそのマークが付いた画像を良性と判断するようになり、バックドアのように攻撃者に後から制御されてしまう。

　研究チームは、今回の結果を踏まえ、データポイズニング攻撃を防ぐための緩和策を提案している。例えば、画像やその他のコンテンツが事後的に切り替えられないようにする「データインテグリティ」を実行するなどである。

Source and Image Credits: Carlini, Nicholas, et al. “Poisoning Web-Scale Training Datasets is Practical.” arXiv preprint arXiv:2302.10149（2023）.

「AIに毒を盛る」──学習用データを改ざんし、AIモデルをサイバー攻撃　Googleなどが脆弱性を発表：Innovative Tech

Innovative Tech：

関連記事

関連リンク

「AIに毒を盛る」──学習用データを改ざんし、AIモデルをサイバー攻撃 Googleなどが脆弱性を発表：Innovative Tech

Innovative Tech：

関連記事

関連リンク

「AIに毒を盛る」──学習用データを改ざんし、AIモデルをサイバー攻撃　Googleなどが脆弱性を発表：Innovative Tech