無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能:Innovative Tech
シンガポール国立大学と中国の浙江大学に所属する研究者らは、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告を発表した。
Innovative Tech:
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。
Twitter: @shiropen2
シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。
このシステムは、マウス操作のGUI(Graphical User Interface)を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設計できる。
生成したクローラータスクはローカルで呼び出すだけでなく、他のシステムと統合してWebサービスとしても利用できる。また、Windows、Linux、MacOSに対応しており、無料で広告もなく、オープンソースである。
Webクローリングのためのオープンフレームワークには、Scrapy、Beautiful Soup、PySpiderなどがある。しかし、これらのほとんどは、ユーザーにWebクローラーの仕組みに関する知識やJavaやPythonなどのプログラミングスキルを要求する。単純なタスクを作成するにも、通常は多くのコードを書く必要があり、煩雑だ。
一方、WebHarvy、Visual Scraper、Web Scraper、Octoparseなどの商用ソフトウェア製品は、プログラミングをすることなくクローラー作業を行うことができる、ユーザーフレンドリーなGUIを提供する。ただし、全ての人が購入できる価格とは限らず(「無料」とうたっているが、実際にはそうではないのもある)、また、このようなノンコーディングのクローラ製品のほとんどは、オープンソースではない。
オープンソースのビジュアルクローラーもあるが、機能が十分でなかったり(例えばPortiaは入力フォームをサポートしていない)、メンテナンスが行き届いていなかったり、複雑なワークフローをサポートしていなかったりするため、ユーザーが自分のニーズに合わせて機能をカスタマイズしたり拡張したりするのは難しいか不可能である。
新しいWebクローラー「EasySpider」は、これらの問題を解決するために開発されたソフトウェアである。プログラミングの経験がなくても、数回のマウスクリックだけでタスクの作成を直感的に数分で完了させることができる。
ソースコードは公開されており、広告は表示されない。また、マニュアルに記載されている全ての機能は無料で利用できる。さらに、他のシステム(例えばDBMSやHDFSなど)と連携してマイクロサービスとしても使用できる。
EasySpiderを評価するため、eBayでテストした。タスクを実行する際、EasySpiderは平均7%のCPUと380MBのメモリを使用した。1つのページのデータを収集するのに約6秒かかり、10ページ全てからデータを収集する全体時間は、90秒であった。
Source and Image Credits: Naibo Wang, Wenjie Feng, Jianwei Yin, and See-Kiong Ng. 2023. EasySpider: A No-Code Visual System for Crawling the Web. In Companion Proceedings of the ACM Web Conference 2023(WWW ’23 Companion). Association for Computing Machinery, New York, NY, USA, 192-195. https://doi.org/10.1145/3543873.3587345
関連記事
- ChatGPTでフィッシングサイトを自動検出する方法 NTTセキュリティが開発 精度は98%以上
NTTセキュリティ・ジャパンに所属する研究者らは、ChatGPTでフィッシングサイトを検出する手法を提案した研究報告を発表した。 - YouTubeで不正に収益化する6つの悪用方法、米研究者らが分析結果を公開
米シカゴ大学と米パデュー大学の研究チームは、YouTubeの不正収益化行為を研究した論文を発表した。世界中のオンラインコミュニティーとYouTubeアカウント売買サイトから複数の情報を集め、分析して6つのカテゴリーに不正行為をまとめた。 - 入力中の個人情報が“送信ボタンを押す前に”収集されている問題 約10万のWebサイトを調査
ベルギーのKU Leuven、オランダのRadboud University、スイスのUniversity of Lausanneによる研究チームがは、まだ送信していないのにもかかわらず、オンラインフォームで入力した個人情報が打ち込んだだけで収集されている問題を調査した論文を発表した。 - “Twitter閲覧制限”なぜ起きた? 公式ブログの日本語訳が公開 ユーザーから批判殺到 「いい加減にして」
米Xが、Twitterの閲覧制限について説明した広告主向けブログ記事の日本語訳を公開。日本のユーザーからは「いい加減にして」「施策は失敗している」といった声が相次いでおり、批判の的になっている。 - Google、ネット上の公開情報をAIのトレーニングに利用しているとプライバシーポリシーに明記
Googleは7月1日付でプライバシーポリシーを更新し、BardなどのAIのトレーニングにネットで一般公開されている情報を使っていると明記した。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.