python中字符串编码方式小结

来源：年旅网

python中字符串编码⽅式⼩结

Python2中字符串的类型有两种：str和unicode，其中unicode是统⼀编码⽅式，它使得字符跟⼆进制是⼀⼀对应的，因此所有其他编码的encode都从unicode开始，⽽其他编码⽅式按照相应的编码decode之后也会变成unicode。⽽utf-8，gbk编码的字符都是str。

从⼀个界⾯直接输⼊的字符串，其默认编码为系统的默认编码⽅式:(⼜或者是当前所使⽤的软件客户端的编码⽅式：⽐如XShell的编码⽅式)

>>> import sys

>>> print sys.getdefaultencoding()ascii

如在windows下是ascii。那么将其转化为unicode：

>>> s =’匆匆’>>> s

'\\xb4\\xd2\\xb4\\xd2'>>>

>>> s1=s.decode(\"gbk\")>>>>>> s1

u'\匆\匆'

之后将其编码为utf8:

>>> S2=s1.encode(\"utf8\")>>>>>> S2

'\\xe5\\x8c\\x86\\xe5\\x8c\\x86'

当python头⽂件中包含了语句：

#-*- coding:utf-8 -*-

代码中输⼊的⽂字默认为utf8编码。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文