网页解析_20180523
2018-06-18 03:02:04来源:未知 阅读 ()
1、网页打开检查器,到达该路径,再刷新网页,点击第一个“Attractions”文件,出现headers(重要)、response、cookies等信息
2、定位元素位置方法,找唯一特征:
- 用鼠标右键定位该元素的标签位置,找出这类信息的唯一性属性,最后用“标签+属性”的方式定位该字段信息。如定位图片宽为160大小的信息 imgs = soup.select( 'img [width="160"]' );区分聚合标题与正常标题:titles = soup.select( 'div.property_title > a[ target="_blank"]' )
- 或,在源码中ctrl+F,查看该信息是否唯一
3、某一字段下有多个信息,需要定位在其父级标签,方便进一步筛选信息
4、进一步筛选信息:
- 获取文本:title.get_text()
- 获取图片链接:img.get( 'src' )
- 获取多个文本信息:list( cates.stripped_strings )
5、连续爬多页
- urls = ['http://...{}...' .format(str(i)) for i in range(30,300,30) ]
6、反爬--延时
- import time, time.sleep(2) 延时2S
7、反爬--网页切换浏览设备
- 通过模拟手机页面获取信息
- 复制’user_agent'信息,伪造headers。headers = {'User-Agent' : '', 'Cookie' : '' }
- 与上述步骤一致
(完)
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
上一篇:MySQL语句整理(一)
下一篇:MySQL数据库的增删改查
- 手把手教你破解文件密码、wifi密码、网页密码 2019-07-24
- Django model 字段类型及选项解析 2019-07-24
- python爬虫登陆网页版腾讯课堂 2019-07-24
- Django框架深入了解_04(DRF之url控制、解析器、响应器、版本 2019-07-24
- 针对源代码和检查元素不一致的网页爬虫——利用Selenium、Ph 2019-07-24
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash