python爬取智联招聘工作岗位信息
2018-06-18 02:28:18来源:未知 阅读 ()
1 # coding:utf-8 2 # auth:xiaomozi 3 #date:2018.4.19 4 #爬取智联招聘职位信息 5 6 7 import urllib 8 from lxml import etree 9 import time 10 import random 11 import pdb 12 13 def downloader(kw,pages): 14 '''下载器 15 :param kw: 搜索关键字 16 :param pages: 搜索的页码,数组 17 :return: 返回爬取到的HTML集合 18 ''' 19 for page in pages: 20 print("the {}page is downloading".format(page)) 21 infourl = 'https://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E6%B7%B1%E5%9C%B3&kw={}&sm=0&p={}'.format(kw, str(page)) 22 time.sleep(random.uniform(0.5, 2.1)) 23 info = urllib.urlopen(infourl).read() 24 yield info 25 26 def extractor(html): 27 ''' 28 提取工作岗位信息,返回一个yield 29 :param html: html字符串 30 :return: 生成器 31 ''' 32 et=etree.HTML(html) 33 tablerows = et.xpath('//div[@class="newlist_list_content"]/table[@class="newlist"]/tr[1]') 34 item = {} 35 for tr in tablerows: 36 tr = etree.HTML(etree.tostring(tr)) 37 item['job'] = tr.xpath('//td[@class="zwmc"]//a[1]/text()') 38 item['com_name'] = tr.xpath('//td[@class="gsmc"]/a[1]/text()') 39 item['salary'] = tr.xpath('//td[@class="zwyx"]/text()') 40 item['address'] = tr.xpath('//td[@class="gzdd"]/text()') 41 yield item 42 43 def saveInfo(items): 44 ''' 45 保存到本地或打印到控制台 46 :param items: 工资岗位信息,类型为生成器 47 :return: 返回处理结果状态 48 ''' 49 for i in items: 50 print(i) 51 return('finished') 52 53 #调用 54 infohtmls= downloader(kw='GIS',pages=range(1,5)) 55 for html in infohtmls: 56 myitems=extractor(html) 57 saveInfo(myitems)
执行结果截图如下:爬取到了满满的3页哦。
版权所有,请多指教 >_*
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- python3基础之“术语表(2)” 2019-08-13
- python3 之 字符串编码小结(Unicode、utf-8、gbk、gb2312等 2019-08-13
- Python3安装impala 2019-08-13
- 小白如何入门 Python 爬虫? 2019-08-13
- python_字符串方法 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash