“ダークウェブ”を学習した大規模言語モデル「DarkBERT」　韓国の研究者らが開発：Innovative Tech

韓国のKAISTとS2W Inc.に所属する研究者らは、ダークウェブに特化した大規模言語モデルを提案した研究報告を発表した。

[山下裕毅，ITmedia] PC用表示関連情報

LINE

Hatena

AI活用のいまが分かる

Innovative Tech：

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: ＠shiropen2

　韓国のKAISTとS2W Inc.に所属する研究者らが発表した論文「DarkBERT: A Language Model for the Dark Side of the Internet」は、ダークウェブに特化した大規模言語モデルを提案した研究報告である。

　ダークウェブは、Googleなどの一般的なWeb検索エンジンにはインデックスされず、通常のWebブラウザではアクセスできないインターネットの一部である。ダークウェブにアクセスするためには、Tor（The Onion Router）などの特別なソフトウェアが必要で、匿名性の高い利点から違法な取引、例えばドラッグの売買や個人情報の売買などが行われている。

　この研究では、ダークウェブコーパスに事前学習させたドメイン特化型言語モデル「DarkBERT」を提案する。このモデルは、2019年に開発した「RoBERTa」のアーキテクチャをベースに設計している。

　モデルを訓練するために、研究者たちはTorネットワークの匿名化ファイアウォールを介してダークウェブをクロールし、生データをフィルタリング（重複排除、カテゴリーバランス、データ前処理などの技術を適用）してダークウェブのデータセットを作成した。

　学習したモデルは、ダークウェブコンテンツを分析し、そこから有用な情報を抽出することができる。セキュリティ研究者や法執行機関にとって、不正な行為をより監視できるツールとして役立つことを研究チームは期待している。ここでは次に示す3つの使い方を説明する。

　1つ目は、ランサムウェアのリークサイトの検出が挙げられる。ダークウェブで発生するサイバー犯罪の1つに、ランサムウェアグループによって流出した組織の個人情報や機密データの販売、公開がある。これは被害者を公開し、非協力的な被害者の機密データ（財務情報や個人資産、個人識別情報など）を公開すると脅すリークサイトの形で発生する。このようなウェブサイトを自動的に特定することは有益である。

ランサムウェア流出サイト

　2つ目は、注目のスレッドの検出が挙げられる。ダークウェブのフォーラムは、不正な情報の交換に使われることが多い。セキュリティ専門家は、最新の情報を得るために、注目すべきスレッドを監視し、タイムリーな対策を行う。

　毎日多くの新しいフォーラム投稿が出現するため、各スレッドを手動で確認するには膨大な人的リソースが必要だ。そのため、悪意のあるスレッドの検出を自動化することで、セキュリティ専門家の作業負担を大幅に軽減できる。

注目すべきスレッドの一例

　3つ目は、脅威キーワードの予測が挙げられる。「fill-mask」という機能を利用して、ダークウェブにおける脅威やドラッグ販売などに関連するキーワードを検出する。fill-maskは、文中の空欄箇所に最も適切な単語を予測する機能だ。

　例えば、オランダ産「MDMA」の錠剤を宣伝しているマスクされたダークウェブの医薬品販売ページに対して、DarkBERTは、薬物関連の単語（OxyやChampagneなど）や薬物と密接に関連する単語（pillsなど）を提案することが分かった。このように脅威を示すためにどのようなキーワードが使われているかを把握するのに有効となる。

MDMAの販売ページ

Source and Image Credits: Jin, Youngjin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, and Seungwon Shin. “DarkBERT: A Language Model for the Dark Side of the Internet.” arXiv preprint arXiv:2305.08596（2023）.

“ダークウェブ”を学習した大規模言語モデル「DarkBERT」　韓国の研究者らが開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

“ダークウェブ”を学習した大規模言語モデル「DarkBERT」 韓国の研究者らが開発：Innovative Tech

Innovative Tech：

関連記事

関連リンク

“ダークウェブ”を学習した大規模言語モデル「DarkBERT」　韓国の研究者らが開発：Innovative Tech