ITmedia NEWS > 科学・テクノロジー >
セキュリティ・ホットトピックス

“ダークウェブ”を学習した大規模言語モデル「DarkBERT」 韓国の研究者らが開発Innovative Tech

» 2023年05月29日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2

 韓国のKAISTとS2W Inc.に所属する研究者らが発表した論文「DarkBERT: A Language Model for the Dark Side of the Internet」は、ダークウェブに特化した大規模言語モデルを提案した研究報告である。

 ダークウェブは、Googleなどの一般的なWeb検索エンジンにはインデックスされず、通常のWebブラウザではアクセスできないインターネットの一部である。ダークウェブにアクセスするためには、Tor(The Onion Router)などの特別なソフトウェアが必要で、匿名性の高い利点から違法な取引、例えばドラッグの売買や個人情報の売買などが行われている。

 この研究では、ダークウェブコーパスに事前学習させたドメイン特化型言語モデル「DarkBERT」を提案する。このモデルは、2019年に開発した「RoBERTa」のアーキテクチャをベースに設計している。

 モデルを訓練するために、研究者たちはTorネットワークの匿名化ファイアウォールを介してダークウェブをクロールし、生データをフィルタリング(重複排除、カテゴリーバランス、データ前処理などの技術を適用)してダークウェブのデータセットを作成した。

 学習したモデルは、ダークウェブコンテンツを分析し、そこから有用な情報を抽出することができる。セキュリティ研究者や法執行機関にとって、不正な行為をより監視できるツールとして役立つことを研究チームは期待している。ここでは次に示す3つの使い方を説明する。

 1つ目は、ランサムウェアのリークサイトの検出が挙げられる。ダークウェブで発生するサイバー犯罪の1つに、ランサムウェアグループによって流出した組織の個人情報や機密データの販売、公開がある。これは被害者を公開し、非協力的な被害者の機密データ(財務情報や個人資産、個人識別情報など)を公開すると脅すリークサイトの形で発生する。このようなウェブサイトを自動的に特定することは有益である。

ランサムウェア流出サイト

 2つ目は、注目のスレッドの検出が挙げられる。ダークウェブのフォーラムは、不正な情報の交換に使われることが多い。セキュリティ専門家は、最新の情報を得るために、注目すべきスレッドを監視し、タイムリーな対策を行う。

 毎日多くの新しいフォーラム投稿が出現するため、各スレッドを手動で確認するには膨大な人的リソースが必要だ。そのため、悪意のあるスレッドの検出を自動化することで、セキュリティ専門家の作業負担を大幅に軽減できる。

注目すべきスレッドの一例

 3つ目は、脅威キーワードの予測が挙げられる。「fill-mask」という機能を利用して、ダークウェブにおける脅威やドラッグ販売などに関連するキーワードを検出する。fill-maskは、文中の空欄箇所に最も適切な単語を予測する機能だ。

 例えば、オランダ産「MDMA」の錠剤を宣伝しているマスクされたダークウェブの医薬品販売ページに対して、DarkBERTは、薬物関連の単語(OxyやChampagneなど)や薬物と密接に関連する単語(pillsなど)を提案することが分かった。このように脅威を示すためにどのようなキーワードが使われているかを把握するのに有効となる。

MDMAの販売ページ

Source and Image Credits: Jin, Youngjin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, and Seungwon Shin. “DarkBERT: A Language Model for the Dark Side of the Internet.” arXiv preprint arXiv:2305.08596(2023).



Copyright © ITmedia, Inc. All Rights Reserved.