都说Python找不到工作?那这些岗位都是什么?零…
2018-07-22 05:57:38来源:博客园 阅读 ()
前言
作为一名准备转行数据分析的小白,我先接触到的是网络爬虫学习,每次爬虫运行都有新的bug收获,通过不断debug,终于稍微能爬一些数据了,在此想和大家分享一下~
私信小编007即可获取小编精心准备的PDF十套哦!
看看最后一页搜索结果
。
PS:小技巧,在页面下部跳转页面输入一个很大的数字,比如10000可以跳到最后一页。
右键查看网页源代码,CTRL+F搜索关键要爬取信息,如下图红框内容
页面红框上的 大数据分析师 字样竟然搜不到!!!
可能藏在json文件里了
那就再试试,搜一下 数据分析师
这下总算有了
为什么会这样呢,经过检查发现:
大和后面的数据分析中间有个<b>标签,这是什么意思,吓得我赶紧百度了一下
设置成粗体?exm?好吧 图上确实是显示粗体
继续观察源代码,发现我想要的信息都在这(下图红框),看来不用抓包分析辣~
没时间解释了,快上车!
好吧,你根本不是司机,开始写代码。。。
以上是设置路径和为最后数据写入excel文件做铺垫
result11=[]
result21=[]
result31=[]
result41=[]
result51=[]
建立五个空的列表放我要抓的最终信息
里面没有中文啊,复制出来访问看看。
果然一样!!!
注意到这个url最后有个p=1,这很可能是页码,我换成5试试吧
看上图,果然是这样,我试试最后第90页
range(1,91)循环爬取1~90页,p="+str(k)是为了构造循环网址(我要把90页全爬下来)
通过观察网页构造选择正则提取
每次提取一页中的所有信息不断循环存在result11~51的列表里
结果如下图
一共5221条数据,并不是网页搜索的12354条,这活生生被吃了一半不止啊!
我又运行了一下,果然数量不一样了,好吧。。。这个问题还有待解决,麻烦各位dalao懂的话留言提醒一下小弟
这个<b></b>标签看着难受,用excel做点后处理
查找替换
报错了额
原来我默认的是wps打开,换成office的excel打开之后操作结果如下
是不是好多了呢,有机会以后继续谢谢针对本数据后续的数据分析~
完整代码如下:
代码运行大概15~20second
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- python3基础之“术语表(2)” 2019-08-13
- python3 之 字符串编码小结(Unicode、utf-8、gbk、gb2312等 2019-08-13
- Python3安装impala 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python_字符串方法 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash