首页 > > 网络编程 > 其它 >

python小白的初步爬虫

2018-11-02 08:50:10来源：博客园阅读 ()

前序：

最近工作不是很忙，领导突然找我谈话，说是谈话，其实就是分配活呗。果不其然，很快进入正题, 给了我一个网址链接，然后说需要商品的信息。。。巴拉巴拉。好吧，去做吧。

我当时的内心是崩溃的，python爬虫压根没碰过，这下完蛋了，理了理思绪，决定先从网页来看。

好了，吐槽完毕，开始正题：

需求：

https://youpin.mi.com/ 需要这个电商网址里边的商品信息, 其中包括：【商品类目】【商品名称】【商品链接】【商品售价】【商品市场价】【评价星级】【评价满意度】【评价总数量】

由于需要类目信息，我决定从类目到商品再到评价这个路子去着手。

首先呢，打开地址，发现首页可以看到类目信息，所以开启网页调试模式，发现了一个请求，如图：

这个请求的返回，有我们需要的分类信息哇，心里一抖，再去看了看请求入参的信息，如下：

之后，我通过postman模拟，居然请求ok了。这可是决定性的一步啊。（ps：其实也不是一下子就试成功的，中间走了一些弯路，由于抓包看到的请求入参格式是application/x-www-form-urlencoded，但是在postman模拟请求的时候，却怎么也请求不到，结果用application/json 去请求的话就可以了，这块存在一部分的侥幸啊）postman请求如下：

这里入参用的是 application/json , 其中请求头的 Referer是必须的，抓包看请求就可以获取到。

接下来，我用类似的方法找到了从分类点进去的商品列表的接口，商详接口，商品评价接口，其中，商详接口请求到code=0，但是result为空，我猜可能是平台的商详接口有反爬虫的机制，就放弃了请求商详接口，如此一来，分析了下，分类点进去的商品列表里边有商品的信息，然后我根据商品的id 可以获取到评论信息，如此一来，我需要的数据都有了，开始动工。

我先说下大体思路哈：

1. 打开网页，分析自己需要的数据，查找对应的网页请求。

2. postman模拟网页请求，获取数据。

3. 用python 去请求对应的接口，获取数据，保存至excel。

下边上代码：

环境：windows7， Python 2.7.0，PyChram编辑器，其中有用到python的库：urllib2 json xlwt （这些库具体的安装，用法大家可以自行百度，这里就不再赘述）

# -*- coding: UTF-8 -*-

import xlwt
import urllib2
import json

# 设置编码格式为utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf8')


# 设置url
shop_url = "https://youpin.mi.com/app/shopv3/pipe"

# 代理
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
# 请求格式
con_type = 'application/json'
# 类目的referer
caty_referer = "https://youpin.mi.com/"
# 商品列表的referer
goods_referer = 'https://youpin.mi.com/detail?gid=101975'

# 组建header
caty_headers = {'Referer': caty_referer, "Content-Type": con_type}

# 分类入参
caty_data = {"result": {"model": "Homepage", "action": "GetGroup2ClassInfo", "parameters": {}}}
# 商品列表入参
list_data = {"uClassList": {"model": "Homepage", "action": "BuildHome", "parameters": {"id": 1}}}
# 评论入参
comment_data = {"overView": {"model": "Product", "action": "CommentIndexV2", "parameters": {"gid": 1}}}


# 获取商品的评论信息
def get_good_comment(url, gid):
    caty_headers["Referer"] = url
    comment_data["overView"]["parameters"]["gid"] = gid
    comment_param = json.dumps(comment_data)

    com_req = urllib2.Request(shop_url, headers=caty_headers, data=comment_param)
    com_resp = urllib2.urlopen(com_req)
    com_res = com_resp.read()
    com_result = json.loads(com_res)
    com_info = com_result['result']['overView']['data']
    com_count = 0

    if com_info['tags']:
        com_count = com_info['tags'][0]['count']
    else:
        com_count = 0
    # for com in com_info['tags']:
    #     com_count = com['count']

    comment_info = {
        "score": com_info['avg_score'],
        "rate": com_info['positive_rate'],
        "count": com_count
    }
    return comment_info


# 获取商品列表，并获取到商品信息，保存到excel 
def get_good_list(caty_id, caty_name):
    # 1. 请求分类的商品列表
    list_referer = "https://youpin.mi.com/goodsbycategory?firstId=%s&secondId=%s&title=%s"
    list_referer_r = list_referer % (caty_id, caty_id, caty_name)
    caty_headers["Referer"] = list_referer_r
    list_data["uClassList"]["parameters"]["id"] = caty_id
    list_param = json.dumps(list_data)

    list_req = urllib2.Request(shop_url, headers=caty_headers, data=list_param)
    list_resp = urllib2.urlopen(list_req)
    list_res = list_resp.read()
    list_result = json.loads(list_res)
    list_info = list_result['result']['uClassList']['data']

    worksheet = workbook.add_sheet(caty_name)
    worksheet.write(0, 0, '类目')
    worksheet.write(0, 1, '链接')
    worksheet.write(0, 2, '商品名称')
    worksheet.write(0, 3, '价格')
    worksheet.write(0, 4, '划线价')
    worksheet.write(0, 5, '评论星级')
    worksheet.write(0, 6, '评论满意度')
    worksheet.write(0, 7, '评论条数')

    # 3. 获取商品url，从而获取商品信息
    index = 1
    for list_index in list_info:
        if list_index['item_type'] == 5:
            continue

        # 获取商品url，获取商品信息
        child_caty_name = list_index['content']['name']
        real_caty_name = caty_name+'/'+child_caty_name

        for goods in list_index['data']:
            # 获取评论
            comment = get_good_comment(goods['url'], goods['gid'])

            # 获取商品信息
            goods_info = {
                "caty": real_caty_name,
                "url": goods['url'],
                "name": goods['name'],
                "price_min": goods['price_min'],
                "market_price": goods['market_price'],
                "score": comment['score'],
                "rate": comment['rate'],
                "count": comment['count']
            }
            print goods_info
            worksheet.write(index, 0, goods_info['caty'])
            worksheet.write(index, 1, goods_info['url'])
            worksheet.write(index, 2, goods_info['name'])
            worksheet.write(index, 3, goods_info['price_min'])
            worksheet.write(index, 4, goods_info['market_price'])
            worksheet.write(index, 5, goods_info['score'])
            worksheet.write(index, 6, goods_info['rate'])
            worksheet.write(index, 7, goods_info['count'])
            index = index + 1

    workbook.save(filename)
    return


# 入口

# 1. 类目入参处理,并请求获取类目信息列表
caty_param = json.dumps(caty_data)
req = urllib2.Request(shop_url, headers=caty_headers, data=caty_param)
response = urllib2.urlopen(req)
res = response.read()
caty_resp = json.loads(res)
caty_groups = caty_resp["result"]["result"]["data"]["groups"]
print len(caty_groups)


# 2. excel表格初始化
filename = "小米优品.xls".decode(encoding="utf-8")
workbook = xlwt.Workbook(encoding='utf-8')

# 3. 获取分类列表,以及id
for caty in caty_groups:
    for caty_class in caty:
        caty_info = {
            'id': caty_class['class']['ucid'],
            'name': caty_class['class']['name']
        }

        list_data["uClassList"]["parameters"]["id"] = caty_info["id"]
        # 获取该类目下的商品列表
        get_good_list(caty_info['id'], caty_info['name'])

之后，获取到的数据如图：

我这里是按照大的类目去分的sheet 。

总结：

1. 我理解的爬虫其实就是模拟浏览器请求，去获取数据，之后将数据按照自己的要求去保存excel或者是数据库。

2. 数据获取可以通过访问接口 ( ps：也可以通过获取网页html，抓取html标签元素去获得数据 )

3. 注意编码：

　 3.1：代码中有中文的，Python文件的开头需要设置：

　　　　# -*- coding: UTF-8 -*-

　3.2 ：windows下，Python的默认编码是ASCII，但是为了开发方便，一般开发者都是设置的UTF-8。

　　　　python操作Excel的时候，如果插入数据有中文，需要在创建workbook的时候，设置UTF-8：　　　　　　

　　　　workbook = xlwt.Workbook(encoding='utf-8')

　　　 python操作Excel的时候，如果文件名有中文，也需要给文件名设置UTF-8：　　　　　　

　　　　filename = "爬取结果.xls".decode(encoding="utf-8")

以上，就是我这个python小白的初体验，希望可以帮助到python的初学者~

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：第十三天-生成器

下一篇：Celery ValueError: not enough values to unpack (expected 3,

python3基础之“术语表（2）” 2019-08-13
python3 之字符串编码小结（Unicode、utf-8、gbk、gb2312等 2019-08-13
Python3安装impala 2019-08-13
小白如何入门 Python 爬虫？ 2019-08-13
python_字符串方法 2019-08-13

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签