“ダークウェブ”を学習した大規模言語モデル「DarkBERT」 韓国の研究者らが開発:Innovative Tech
韓国のKAISTとS2W Inc.に所属する研究者らは、ダークウェブに特化した大規模言語モデルを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2
韓国のKAISTとS2W Inc.に所属する研究者らが発表した論文「DarkBERT: A Language Model for the Dark Side of the Internet」は、ダークウェブに特化した大規模言語モデルを提案した研究報告である。
ダークウェブは、Googleなどの一般的なWeb検索エンジンにはインデックスされず、通常のWebブラウザではアクセスできないインターネットの一部である。ダークウェブにアクセスするためには、Tor(The Onion Router)などの特別なソフトウェアが必要で、匿名性の高い利点から違法な取引、例えばドラッグの売買や個人情報の売買などが行われている。
この研究では、ダークウェブコーパスに事前学習させたドメイン特化型言語モデル「DarkBERT」を提案する。このモデルは、2019年に開発した「RoBERTa」のアーキテクチャをベースに設計している。
モデルを訓練するために、研究者たちはTorネットワークの匿名化ファイアウォールを介してダークウェブをクロールし、生データをフィルタリング(重複排除、カテゴリーバランス、データ前処理などの技術を適用)してダークウェブのデータセットを作成した。
学習したモデルは、ダークウェブコンテンツを分析し、そこから有用な情報を抽出することができる。セキュリティ研究者や法執行機関にとって、不正な行為をより監視できるツールとして役立つことを研究チームは期待している。ここでは次に示す3つの使い方を説明する。
1つ目は、ランサムウェアのリークサイトの検出が挙げられる。ダークウェブで発生するサイバー犯罪の1つに、ランサムウェアグループによって流出した組織の個人情報や機密データの販売、公開がある。これは被害者を公開し、非協力的な被害者の機密データ(財務情報や個人資産、個人識別情報など)を公開すると脅すリークサイトの形で発生する。このようなウェブサイトを自動的に特定することは有益である。
2つ目は、注目のスレッドの検出が挙げられる。ダークウェブのフォーラムは、不正な情報の交換に使われることが多い。セキュリティ専門家は、最新の情報を得るために、注目すべきスレッドを監視し、タイムリーな対策を行う。
毎日多くの新しいフォーラム投稿が出現するため、各スレッドを手動で確認するには膨大な人的リソースが必要だ。そのため、悪意のあるスレッドの検出を自動化することで、セキュリティ専門家の作業負担を大幅に軽減できる。
3つ目は、脅威キーワードの予測が挙げられる。「fill-mask」という機能を利用して、ダークウェブにおける脅威やドラッグ販売などに関連するキーワードを検出する。fill-maskは、文中の空欄箇所に最も適切な単語を予測する機能だ。
例えば、オランダ産「MDMA」の錠剤を宣伝しているマスクされたダークウェブの医薬品販売ページに対して、DarkBERTは、薬物関連の単語(OxyやChampagneなど)や薬物と密接に関連する単語(pillsなど)を提案することが分かった。このように脅威を示すためにどのようなキーワードが使われているかを把握するのに有効となる。
Source and Image Credits: Jin, Youngjin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, and Seungwon Shin. “DarkBERT: A Language Model for the Dark Side of the Internet.” arXiv preprint arXiv:2305.08596(2023).
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 中古ルーターは機密データの宝庫? 購入して検証、半数以上に企業秘密が残存 スロバキアチームが調査
セキュリティ企業ESETの研究者らは、テストのために購入した中古の企業向けルーターの半数以上(56.25%)が、前の所有者によって完全にそのままの状態で残されていたことを示した研究報告を発表した。 - ChatGPTアカウントの転売、ダークウェブで増加 制限回避のため需要高まる
チェック・ポイント・ソフトウェア・テクノロジーズの日本法人は、ChatGPTの有料アカウントが盗まれ、ダークウェブ上で販売される被害が増加しているとして注意喚起した。 - 尼崎市のUSBメモリ、スマホのGPS辿り発見 「漏えいしていない保証はない」とBIPROGY
BIPROGYは24日、兵庫県尼崎市の全市民46万人分の個人情報が入ったUSBメモリを紛失し、その後発見した件で記者会見を開き、発見時の状況や今後の対応を説明した。鞄には紛失したときと同じ状態で入っていたという。 - 「富岳」で大規模言語モデル開発へ 分散並列学習法を研究 成果はGitHubなどで公開予定
理化学研究所と富士通、東京工業大学、東北大学が、スーパーコンピュータ「富岳」で大規模言語モデルの分散並列学習手法の研究を始める。 - サイバーエージェントが公開した大規模言語モデルの実力を試す
5月16日、サイバーエージェントが商用利用可能な7B(68億パラメータ)の大規模言語モデルOpenCalm7Bを公開した。早速その実力を試してみた。