分享

分布式爬虫技术架构


问题导读

1.什么是Spiderman?
2.webmagic有什么功能?
3.分布式爬虫包含哪些技术架构?








Spiderman
Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。
项目结构:
1.png
依赖关系如下:
2.png
webmagic
webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。
3.png
工程结构:
4.png
工程间的关系:
5.png
众推
用整体正在进行中,目前集中在分布式爬虫阶段。
6.jpg
目前设计阶段的结构为:
7.jpg
基本思想为:
WEB:界面及功能部分。
SAMPLES:示例部分。
CORE:需要调用的核心包。
RULES:规则处理部分。
PARSERS:解析部分。
PLUGIN:插件部分。
CDOOP:分布式处理部分。
ADAPTER:代理适配部分。
STORE:存储层。
目前项目的地址在:
https://github.com/zongtui/zongtui-webcrawler

已有(4)人评论

跳转到指定楼层
LeucotheaShi 发表于 2015-4-15 10:14:19
赞~楼主辛苦了,之后可以讲得更深入一些
回复

使用道具 举报

hnyyzj0724 发表于 2015-4-16 09:03:42
目前正在学...请问楼主,怎么能在一PageProcessor中获取另一个PageProcessor的中过滤出的数据。。。谢谢
回复

使用道具 举报

tang 发表于 2015-6-19 18:55:16
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条