python小白的初步爬虫

2018-11-02 08:50:10来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

 

前序: 

最近工作不是很忙,领导突然找我谈话,说是谈话,其实就是分配活呗。果不其然,很快进入正题, 给了我一个网址链接,然后说需要商品的信息。。。巴拉巴拉。好吧,去做吧。

我当时的内心是崩溃的,python爬虫压根没碰过,这下完蛋了,理了理思绪,决定先从网页来看。

好了,吐槽完毕,开始正题:

 

需求:

https://youpin.mi.com/ 需要这个电商网址里边的商品信息, 其中包括:【商品类目】【商品名称】【商品链接】【商品售价】【商品市场价】【评价星级】【评价满意度】【评价总数量】 

由于需要类目信息,我决定从类目到商品再到评价这个路子去着手。

首先呢,打开地址,发现首页可以看到类目信息,所以开启网页调试模式,发现了一个请求,如图:

 

 这个请求的返回,有我们需要的分类信息哇,心里一抖,再去看了看请求入参的信息,如下:

之后,我通过postman模拟,居然请求ok了。这可是决定性的一步啊。(ps:其实也不是一下子就试成功的,中间走了一些弯路,由于抓包看到的请求入参格式是application/x-www-form-urlencoded,但是在postman模拟请求的时候,却怎么也请求不到,结果用application/json 去请求的话就可以了,这块存在一部分的侥幸啊)postman请求如下:

这里入参用的是 application/json , 其中请求头的 Referer是必须的,抓包看请求就可以获取到。

 接下来,我用类似的方法找到了从分类点进去的商品列表的接口,商详接口,商品评价接口,其中,商详接口请求到code=0,但是result为空,我猜可能是平台的商详接口有反爬虫的机制,就放弃了请求商详接口,如此一来,分析了下,分类点进去的商品列表里边有商品的信息,然后我根据商品的id 可以获取到评论信息,如此一来,我需要的数据都有了,开始动工。

 

我先说下大体思路哈:

1.  打开网页,分析自己需要的数据,查找对应的网页请求。

2. postman模拟网页请求,获取数据。

3. 用python 去请求对应的接口,获取数据,保存至excel。

 

下边上代码:

环境:windows7, Python 2.7.0,PyChram编辑器  ,其中有用到python的库:urllib2  json  xlwt (这些库具体的安装,用法大家可以自行百度,这里就不再赘述)

# -*- coding: UTF-8 -*-

import xlwt
import urllib2
import json

# 设置编码格式为utf-8
import sys reload(sys) sys.setdefaultencoding('utf8') # 设置url shop_url = "https://youpin.mi.com/app/shopv3/pipe" # 代理 user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' # 请求格式 con_type = 'application/json' # 类目的referer caty_referer = "https://youpin.mi.com/" # 商品列表的referer goods_referer = 'https://youpin.mi.com/detail?gid=101975' # 组建header caty_headers = {'Referer': caty_referer, "Content-Type": con_type} # 分类入参 caty_data = {"result": {"model": "Homepage", "action": "GetGroup2ClassInfo", "parameters": {}}} # 商品列表入参 list_data = {"uClassList": {"model": "Homepage", "action": "BuildHome", "parameters": {"id": 1}}} # 评论入参 comment_data = {"overView": {"model": "Product", "action": "CommentIndexV2", "parameters": {"gid": 1}}} # 获取商品的评论信息 def get_good_comment(url, gid): caty_headers["Referer"] = url comment_data["overView"]["parameters"]["gid"] = gid comment_param = json.dumps(comment_data) com_req = urllib2.Request(shop_url, headers=caty_headers, data=comment_param) com_resp = urllib2.urlopen(com_req) com_res = com_resp.read() com_result = json.loads(com_res) com_info = com_result['result']['overView']['data'] com_count = 0 if com_info['tags']: com_count = com_info['tags'][0]['count'] else: com_count = 0 # for com in com_info['tags']: # com_count = com['count'] comment_info = { "score": com_info['avg_score'], "rate": com_info['positive_rate'], "count": com_count } return comment_info # 获取商品列表,并获取到商品信息,保存到excel def get_good_list(caty_id, caty_name): # 1. 请求分类的商品列表 list_referer = "https://youpin.mi.com/goodsbycategory?firstId=%s&secondId=%s&title=%s" list_referer_r = list_referer % (caty_id, caty_id, caty_name) caty_headers["Referer"] = list_referer_r list_data["uClassList"]["parameters"]["id"] = caty_id list_param = json.dumps(list_data) list_req = urllib2.Request(shop_url, headers=caty_headers, data=list_param) list_resp = urllib2.urlopen(list_req) list_res = list_resp.read() list_result = json.loads(list_res) list_info = list_result['result']['uClassList']['data'] worksheet = workbook.add_sheet(caty_name) worksheet.write(0, 0, '类目') worksheet.write(0, 1, '链接') worksheet.write(0, 2, '商品名称') worksheet.write(0, 3, '价格') worksheet.write(0, 4, '划线价') worksheet.write(0, 5, '评论星级') worksheet.write(0, 6, '评论满意度') worksheet.write(0, 7, '评论条数') # 3. 获取商品url,从而获取商品信息 index = 1 for list_index in list_info: if list_index['item_type'] == 5: continue # 获取商品url,获取商品信息 child_caty_name = list_index['content']['name'] real_caty_name = caty_name+'/'+child_caty_name for goods in list_index['data']: # 获取评论 comment = get_good_comment(goods['url'], goods['gid']) # 获取商品信息 goods_info = { "caty": real_caty_name, "url": goods['url'], "name": goods['name'], "price_min": goods['price_min'], "market_price": goods['market_price'], "score": comment['score'], "rate": comment['rate'], "count": comment['count'] } print goods_info worksheet.write(index, 0, goods_info['caty']) worksheet.write(index, 1, goods_info['url']) worksheet.write(index, 2, goods_info['name']) worksheet.write(index, 3, goods_info['price_min']) worksheet.write(index, 4, goods_info['market_price']) worksheet.write(index, 5, goods_info['score']) worksheet.write(index, 6, goods_info['rate']) worksheet.write(index, 7, goods_info['count']) index = index + 1 workbook.save(filename) return # 入口 # 1. 类目入参处理,并请求获取类目信息列表 caty_param = json.dumps(caty_data) req = urllib2.Request(shop_url, headers=caty_headers, data=caty_param) response = urllib2.urlopen(req) res = response.read() caty_resp = json.loads(res) caty_groups = caty_resp["result"]["result"]["data"]["groups"] print len(caty_groups) # 2. excel表格初始化 filename = "小米优品.xls".decode(encoding="utf-8") workbook = xlwt.Workbook(encoding='utf-8') # 3. 获取分类列表,以及id for caty in caty_groups: for caty_class in caty: caty_info = { 'id': caty_class['class']['ucid'], 'name': caty_class['class']['name'] } list_data["uClassList"]["parameters"]["id"] = caty_info["id"] # 获取该类目下的商品列表 get_good_list(caty_info['id'], caty_info['name'])

之后,获取到的数据如图:

我这里是按照大的类目去分的sheet 。

 

总结:

1. 我理解的爬虫其实就是模拟浏览器请求,去获取数据,之后将数据按照自己的要求去保存excel或者是数据库。

2. 数据获取可以通过访问接口 ( ps:也可以通过获取网页html,抓取html标签元素去获得数据 )

3. 注意编码:

  3.1: 代码中有中文的,Python文件的开头需要设置:

    # -*- coding: UTF-8 -*-

  3.2 :windows下,Python的默认编码是ASCII,但是为了开发方便,一般开发者都是设置的UTF-8。

     python操作Excel的时候,如果插入数据有中文,需要在创建workbook的时候,设置UTF-8:      

    workbook = xlwt.Workbook(encoding='utf-8')

        python操作Excel的时候,如果文件名有中文,也需要给文件名设置UTF-8:      

    filename = "爬取结果.xls".decode(encoding="utf-8")

  

 以上,就是我这个python小白的初体验,希望可以帮助到python的初学者~

 

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:第十三天-生成器

下一篇:Celery ValueError: not enough values to unpack (expected 3,