记录一次爬虫抓取数据的过程
2019-04-28 08:23:34来源:博客园 阅读 ()
第一次编写python脚本,爬取了一些数据,供公司内部使用,
抓取到json格式数据之后,导入到Excel中进行排序筛选并图表化,得到了一些分析结果,虽然简单,但很有意义。
也可以算是对爬虫有了一个入门,接下来会学习一些数据挖掘,数据清洗相关的内容,数据的清洗分析也是很有意思的
下边是经过简化后的代码:
1 import time 2 import requests 3 import json 4 5 ##################################################################### 6 ################# 请登录浏览器获取sessionID ####################### 7 ##################################################################### 8 sess_ID = '' #请填写sessionID 9 s = requests.Session() ###创建requests对象 10 11 ######################### cook params ############################### 12 startTime='2019-04-23+00:00:00' #起始时间 2019-04-24+00:00:00 13 endTime ='2019-04-23+23:59:59' #结束时间 14 header_refer_url = 'http://www.baidu,com' 15 file_name_prefix='百度-' 16 17 ############### cook filename ############ 18 file_name_list = startTime.split('+') 19 date_str = file_name_list[0]; 20 file_name = file_name_prefix + str(data_Source) + '-' + date_str +'.txt' 21 22 ############### cook header and url ############ 23 header = { 24 'Referer': '{refer}'.format(refer=header_refer_url), 25 'Session-Id': '{sessID}'.format(sessID=sess_ID), 26 'Connection':'close' 27 } 28 plateurl = ('http://www.baidu,com?' 29 'recordTimeStart={startTime}' 30 '&recordTimeEnd={endTime}').format( 31 endTime=endTime,startTime=startTime) 32 33 ############### cook page_range ############ 34 total_num = 10 35 print("totalnum:",total_num) 36 37 print(file_name) 38 fout=open(file_name,'w+',encoding='UTF-8') ###open file 39 ############### pull data from server ############ 40 for num in range(total_num): 41 page_num=num+1 42 plateurl = ('http://www.baidu,com?' 43 'recordTimeStart={startTime}' 44 '&recordTimeEnd={endTime}').format( 45 endTime=endTime,startTime=startTime) 46 try: 47 resp = s.get(plateurl,headers=header) 48 resp.encoding = 'utf-8' 49 print("totalnum:",total_num,'curr_page:',page_num,' status_code = {0}'.format(resp.status_code)) 50 fout.write(resp.text) ### 将网页内容存入文件 51 fout.write('\n') 52 except: 53 print('refused by server!sleep 2 sec') 54 time.sleep(2) 55 continue 56 fout.close()
原文链接:https://www.cnblogs.com/ayuepang/p/10775100.html
如有疑问请与原作者联系
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
下一篇:Python库的安装
- 小白如何入门 Python 爬虫? 2019-08-13
- python day2-爬虫实现github登录 2019-08-13
- python爬虫学习之爬取超清唯美壁纸 2019-08-13
- python爬虫学习之用Python抢火车票的简单小程序 2019-08-13
- python爬虫常用库 2019-08-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash