首页 > > 网络编程 > 其它 >

字符编码——python学习

2018-10-29 15:30:34来源：博客园阅读 ()

python学习—字符编码

例如汉字“中”

十进制：20013

二进制：01001110 00101101(unicode)/11100100 10111000 10101101(utf-8)

十六进制：u4e2d

八进制：

ascii

ASCII编码是1个字节
只能编码纯英文
节省空间

unicode

Unicode编码通常是2个字节。（比如字母A用ASCII编码是十进制的65，二进制的01000001；A的Unicode编码是00000000 01000001。）
uicode统一编码，解决编码冲突，乱码问题消失
比ascii多一倍的存储空间，存储和传送时不划算（UTF-8解决）

utf-8(可变长的unicode编码)

UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。

字符	ASCII	Unicode	UTF-8
A	01000001	00000000 01000001	01000001
中	x	01001110 00101101	11100100 10111000 10101101

如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：
ASCII编码实际上可以被看成是UTF-8编码的一部分，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

计算机系统通用的字符编码工作方式

内存：统一unicode编码

硬盘、传输：转换为utf-8

浏览网页的时候，服务器会把动态生成的Unicode内容转换为UTF-8再传输到浏览器：

Python的字符串

相关函数

ord()函数获取字符的整数表示（单个字符）参数为要操作的单个字符，返回一个整数。
chr()函数把编码转换为对应的字符（单个字符）
encode（）函数，将str字符串以指定的编码方式（参数）变为bytes

'str'.encode（ascii/utf-8）返回bytes字符串

中文以ascii编码会报错

decode()函数把从网络或磁盘上读取的bytes以指定的编码方式（参数）变为str

'bytes'.decode(ascii/utf-8)返回str字符串

bytes无法解码会报错，如果bytes中只有一小部分无效的字节，可以传入errors='ignore'忽略错误的字节

>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore') '中'

len()函数，计算字符串包含字符个数

>>> len(b'ABC') 3 >>> len(b'\xe4\xb8\xad\xe6\x96\x87') 6 >>> len('中文'.encode('utf-8')) 6

在最新的Python 3版本中，字符串是以Unicode编码的，也就是说，Python的字符串支持多语言

Python的字符串类型是str,如果要在网络上传输，或者保存到磁盘上，就需要把str变为bytes。

>>为了避免乱码问题，应当始终坚持使用UTF-8编码对str和bytes进行转换<<

str和bytes的区别

str一个字符对应若干个字节，但bytes的每个字符都只占用一个字节。（将多字节的字符分解为单字节的多字符）

>>> 'ABC'.encode('ascii') b'ABC' >>> '中文'.encode('utf-8') b'\xe4\xb8\xad\xe6\x96\x87'

在bytes中，无法显示为ASCII字符的字节，用\x##显示。

bytes字符带前缀，带引号

.py文件中含中文要用utf-8编码

#!/usr/bin/env python3 # -*- coding: utf-8 -*-

第一行注释是为了告诉Linux/OS X系统，这是一个Python可执行程序，Windows系统会忽略这个注释；

第二行注释是为了告诉Python解释器，按照UTF-8编码读取源代码，否则，你在源代码中写的中文输出可能会有乱码。

>>编辑器用UTF-8 without BOM<<

字符串格式化问题

>>> 'Hello, %s' % 'world' 'Hello, world' >>> 'Hi, %s, you have $%d.' % ('Michael', 1000000) 'Hi, Michael, you have $1000000.'

%运算符

就是用来格式化字符串的。在字符串内部有几个%?占位符，后面就跟几个变量或者值，顺序要对应好。如果只有一个%?，括号可以省略。
转义，用%%来表示一个%

>>> 'growth rate: %d %%' % 7 'growth rate: 7 %'

占位符	替换内容
%d	整数
%f	浮点数
%s	字符串
%x	十六进制整数

format()

另一种格式化字符串的方法是使用字符串的format()方法，它会用传入的参数依次替换字符串内的占位符{0}、{1}……，不过这种方式写起来比%要麻烦得多：

>>> 'Hello, {0}, 成绩提升了 {1:.1f}%'.format('小明', 17.125) 'Hello, 小明, 成绩提升了 17.1%'

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：文件操作

下一篇：python_day1

python3基础之“术语表（2）” 2019-08-13
python3 之字符串编码小结（Unicode、utf-8、gbk、gb2312等 2019-08-13
Python3安装impala 2019-08-13
小白如何入门 Python 爬虫？ 2019-08-13
python_字符串方法 2019-08-13

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签