首页 > > 网络编程 > 其它 >

python3爬虫编码问题

2018-06-18 02:51:19来源：未知阅读 ()

使用爬虫爬取网页经常遇到各种编码问题，因此产生乱码
今天折腾了一天，全部总结一遍
环境：win10,pycharm,python3.4
1.首先先来网页编码是utf-8的：
以百度首页为例：
使用requests库
import requests

url="http://www.baidu.com"
response = requests.get(url)
content = response.text
print(content)
结果有代码显示，但是出现乱码

使用urllib库
import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')
print(response.read())
结果有代码显示，但是以二进制返回

接下来介绍encode()和decode()方法
encode()用于解码，decode()方法用于编码
注：python3默认编码为utf-8
例1：
text = '中华'
print(type(text))
print(text.encode('gbk'))#以gbk形式解码，即把utf-8的字符串text转换成gbk编码
print(text.encode('utf-8'))#以utf-8形式解码，因为原本是utf-8编码，所以返回二进制
print(text.encode('iso-8859-1'))#报错
返回结果：
<class 'str'>
b'\xd6\xd0\xbb\xaa'
b'\xe4\xb8\xad\xe5\x8d\x8e'
UnicodeEncodeError: 'latin-1' codec can't encode characters in position 0-1: ordinal not in range(256)
为什么第四个报错？
我查寻了一下latin-1是什么？
Latin1是ISO-8859-1的别名，有些环境下写作Latin-1。
ISO-8859-1编码是单字节编码。
Unicode其实是Latin1的扩展。只有一个低字节的Uncode字符其实就是Latin1字符（这里认为unicode是两个字节，事实上因为各种版本不一样，字节数也不一样）
所以我的理解是：因为中文至少两个字节，所以不能解码出来

例2：
text = '中华'
print(type(text)) #<class 'str'>
text1 = text.encode('gbk')
print(type(text1)) #<class 'bytes'>
print(text1) #b'\xd6\xd0\xbb\xaa'
text2 = text1.decode('gbk')
print(type(text2)) #<class 'str'>
print(text2) #中华
text3 = text1.decode('utf-8') #报错：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte
print(text3)

text4= text.encode('utf-8')
print(type(text4)) #<class 'bytes'>
print(text4) #b'\xe4\xb8\xad\xe5\x8d\x8e'
text5 = text4.decode('utf-8')
print(type(text5)) #<class 'str'>
print(text5) #中华
text6 = text4.decode('gbk') #报错：UnicodeDecodeError: 'gbk' codec can't decode byte 0xad in position 2: illegal multibyte sequence
print(text6)

为什么text3和text6会报错呢？
因为他们解码和编码使用的编码标准不一样。text1是用gbk解码，那么用utf-8编码回去就会报错，text6同理

好，回到百度例子，那么我们要怎么样才能看到我们想要的网页源代码呢？
使用requests库
import requests

url="http://www.baidu.com"
response = requests.get(url)
content = response.text.encode('iso-8859-1').decode('utf-8')
#把网页源代码解码成Unicode编码,然后用utf-8编码
print(content)

使用urllib库
import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')
print(response.read().decode(utf-8))

2.关于网页源代码是gbk或者gb2312编码的网页：
import requests
response = requests.get('http://www.dytt8.net/')
#print(response.text)
html = response.text

print(html)
结果返回乱码

import urllib.request
#get请求
response = urllib.request.urlopen('http://www.baidu.com')
print(response.read())
结果返回二进制

正确代码：
import requests
response = requests.get('http://www.dytt8.net/')
#print(response.text)
html = response.text.encode('iso-8859-1').decode('gbk')

print(html)

import urllib.request
#get请求
response = urllib.request.urlopen('http://www.dytt8.net/')
print(response.read().decode('gbk'))

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：python-4函数式编程

下一篇：Python Django框架笔记（五）：模型

python3基础之“术语表（2）” 2019-08-13
python3 之字符串编码小结（Unicode、utf-8、gbk、gb2312等 2019-08-13
Python3安装impala 2019-08-13
小白如何入门 Python 爬虫？ 2019-08-13
python day2-爬虫实现github登录 2019-08-13

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签