零基础入门学习爬虫,这四大工具你一定要掌握的…
2018-07-28 06:20:39来源:博客园 阅读 ()
现在学习Python的小伙伴当中,绝大部分的小伙伴都是想学习爬虫,但是学习爬虫的前期准备需要做些什么呢?
- 一颗坚持不懈的心。
- Web前端 HTML的相关知识,看不懂网页怎么能行
- Python的基础语法
- 最后一点,也是最重要的一点,你得有个电脑
当前面的那些你都具备那么,这个时候你就需要学习爬虫相关的知识点的了
- 基本的爬虫工作原理
- 基本的http抓取工具:scarpy
- 分布式爬虫
- Rq和scrapy的结合
- 网页解析
- 等
但是爬虫相关的居家必备的工具你必须得掌握。
F12开发者工具
作用:
- 查看源代码,快速定位元素
- 分析xpath,建议使用火狐或者谷歌浏览器,可以在源码界面直接右键查看
抓包工具
推荐火狐浏览器下的插件,比谷歌火狐系自带的F12工具都要好,可以方便查看网站收包发包的信息
火狐插件
是一款非常不错的xpath测试工具,当然了也有一些小缺点
1、xpath checker生成的是绝对路径,遇到一些动态生成的图标(常见的有列表翻页按钮等),飘忽不定的绝对路径很有可能造成错误,所以这里建议在真正分析的时候,只是作为参考
记得把如下图xpath框里的"x:"去掉,目前已经和一些模块不兼容(比如scrapy),还是删去避免报错。
正则表达测试工具
在线正则表达式测试,可以用来练手,因为很多小伙伴都说,正则比较难懂。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- python3基础之“术语表(2)” 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python_0基础开始_day07 2019-08-13
- Python学习日记(十) 生成器和迭代器 2019-08-13
- python学习-53 正则表达式 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash