Java爬虫系列一:写在开始前

2019-05-23 09:54:58来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

最近在研究Java爬虫,小有收获,打算一边学一边跟大家分享下,在干货开始前想先跟大家啰嗦几句。

一、首先说下为什么要研究Java爬虫

Python已经火了很久了,它功能强大,其中很擅长的一个就是写爬虫程序。作为一名Javaer,想要写爬虫的话难道要学习python吗?

想到这个问题我去度娘了下,其实java也可以写爬虫,只是需要的代码行数要比python多。但是用java写就不需要专门为了爬虫再去学习一门新语言了,感觉省时省力省麻烦。刚好最近有点时间,就去专门研究了下。

二、Java爬虫要考虑的问题以及用到哪些技术和工具

爬虫需要考虑的问题有很多,但是对于我们入门级的来说主要有如下几个:

  1. 如何抓取页面数据,可以使用HttpClient或HtmlUnit

  2. 如何解析页面数据,可以使用Jsoup

  3. 如何反反爬虫,可以伪装浏览器和使用代理IP

  4. 如何url去重,可以建立一个队列用来记录已经爬取过的url,每次处理前先看下当前要处理的url是否在队列内

  5. 如何持久化数据,可以保存到数据库,也可以保存到文件中

接下来的文章将逐步分享这些内容。

三、优秀的开源Java爬虫

可以看下知乎上的这个内容

《GitHub 上有哪些优秀的 Java 爬虫项目》

https://www.zhihu.com/question/31427895

四、学习资料推荐

1.《自己动手写网络爬虫》罗刚 王振东 编著,应该是市面上唯一一个用Java写案例的爬虫书籍,时间比较久了,但是理论知识还是值得看的

2.百度


原文链接:https://www.cnblogs.com/sam-uncle/p/10908572.html
如有疑问请与原作者联系

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:Java的不同版本:J2SE、J2EE、J2ME的区别

下一篇:Java面试题总结之数据结构、算法和计算机基础(刘小牛和丝音的爱