ITmedia NEWS > 科学・テクノロジー >

無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能Innovative Tech

» 2023年07月12日 08時00分 公開
[山下裕毅ITmedia]

Innovative Tech:

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。

Twitter: @shiropen2

 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら

 このシステムは、マウス操作のGUI(Graphical User Interface)を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設計できる。

 生成したクローラータスクはローカルで呼び出すだけでなく、他のシステムと統合してWebサービスとしても利用できる。また、Windows、Linux、MacOSに対応しており、無料で広告もなく、オープンソースである。

EasySpiderをeBayで使用した例

 Webクローリングのためのオープンフレームワークには、Scrapy、Beautiful Soup、PySpiderなどがある。しかし、これらのほとんどは、ユーザーにWebクローラーの仕組みに関する知識やJavaやPythonなどのプログラミングスキルを要求する。単純なタスクを作成するにも、通常は多くのコードを書く必要があり、煩雑だ。

 一方、WebHarvy、Visual Scraper、Web Scraper、Octoparseなどの商用ソフトウェア製品は、プログラミングをすることなくクローラー作業を行うことができる、ユーザーフレンドリーなGUIを提供する。ただし、全ての人が購入できる価格とは限らず(「無料」とうたっているが、実際にはそうではないのもある)、また、このようなノンコーディングのクローラ製品のほとんどは、オープンソースではない。

 オープンソースのビジュアルクローラーもあるが、機能が十分でなかったり(例えばPortiaは入力フォームをサポートしていない)、メンテナンスが行き届いていなかったり、複雑なワークフローをサポートしていなかったりするため、ユーザーが自分のニーズに合わせて機能をカスタマイズしたり拡張したりするのは難しいか不可能である。

 新しいWebクローラー「EasySpider」は、これらの問題を解決するために開発されたソフトウェアである。プログラミングの経験がなくても、数回のマウスクリックだけでタスクの作成を直感的に数分で完了させることができる。

 ソースコードは公開されており、広告は表示されない。また、マニュアルに記載されている全ての機能は無料で利用できる。さらに、他のシステム(例えばDBMSやHDFSなど)と連携してマイクロサービスとしても使用できる。

 EasySpiderを評価するため、eBayでテストした。タスクを実行する際、EasySpiderは平均7%のCPUと380MBのメモリを使用した。1つのページのデータを収集するのに約6秒かかり、10ページ全てからデータを収集する全体時間は、90秒であった。

eBayで商品情報を収集するタスクに対するEasySpiderのワークフローチャート
EasySpiderの使用例
住宅情報サイトで使用している例

Source and Image Credits: Naibo Wang, Wenjie Feng, Jianwei Yin, and See-Kiong Ng. 2023. EasySpider: A No-Code Visual System for Crawling the Web. In Companion Proceedings of the ACM Web Conference 2023(WWW ’23 Companion). Association for Computing Machinery, New York, NY, USA, 192-195. https://doi.org/10.1145/3543873.3587345



Copyright © ITmedia, Inc. All Rights Reserved.