分享

java爬虫项目(一)

本帖最后由 孤独的战神 于 2019-6-24 14:08 编辑

最近在工作当中接触了一些关于爬虫项目的内容,自己就做了一下研究,现将自己的研究做了一些梳理,本帖子将从头到尾搭建一个爬虫小项目。
爬虫项目背景:
现在处于这个数据大爆炸的时代,数据就是就是金钱,可以说谁拥有数据谁就拥有话语权——用数据说话,用事实说话。
目前各大软件厂商(例如微信、支付宝、美团等等)拥有庞大的用户群体,而用户的每天会有各种各样的”行为”,这些”行为”成为了这些软件厂商关注的对象。软件厂商通过收集用户的”行为”,然后通过大数据分析,来总结出用户的”行为习惯”,从而进行广告的推广。
爬虫的目的也是一样的,通过爬取数据达到数据收集的目的-----》数据分析-----》业务推广
本项目总体需求:
本项目就基于论坛帖子来进行数据抓取。
1.   多维度分析
访问量、评论数、踩、赞
2.   项目可视化
在个人练习中总结了爬虫项目可能遇到的一下几点问题和解决办法:
1) 频繁的抓取网站数据导致IP被封
解决办法:
部署多个应用分别抓取,降低单节点频繁访问;
如果有实力可以购买代理IP库,随机获取IP进行数据抓取;
给每个页面设置抓取的时间间隔,降低被封的概率;
2)抓取数据URL访问失败
解决办法:
  采用HttpClient默认处理方式,重试3次,如果3次失败则认为是无效的URL;

3)网站采取了反爬取策略
解决办法:
  通过模拟浏览器,来进行数据抓取;
4) 网站的模板出现变动
解决办法:
  通过不同的配置文件配置不同网页的模板规则,从而减少修改源代码的频率;
项目的架构设计:
1561356383(1).jpg


因工作原因,本帖持续更新中。。。。。。

没找到任何评论,期待你打破沉寂

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

推荐上一条 /2 下一条