最近在练习爬虫,分享一些简单入门的知识

2018-07-11 03:41:47来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

我用的PYCharm3.5.4,安装了requests

 

使用requests模块发送简单的get请求、获取响应

import requests 

# 目标url
url = 'https://www.网页地址.com' 

# 向目标url发送get请求
response = requests.get(url)

# 打印响应内容
print(response.text)
response的常见属性:
  • response.text 响应体 str类型
  • respones.content 响应体 bytes类型
  • response.status_code 响应状态码
  • response.request.headers 响应对应的请求头
  • response.headers 响应头
  • response.request.cookies 响应对应请求的cookie
  • response.cookies 响应的cookie(经过了set-cookie动作)

获取网页源码的常用方法:

  1. response.content.decode()
  2. response.content.decode("GBK")
  3. response.text

以上三种方法从前往后尝试,能够100%的解决所有网页解码的问题

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:Python提取图片中的文字信息,腾讯内部技术,一行代码搞定!

下一篇:wordcloud安装是错误信息的解决