python impala 编码

作者: Mr点BUG
来源: 51数据库
2020-10-03

Python的默认编码是ASCII格式：
1. ASCII(American Standard Code for Information Interchange)，是一种单字节的编码。计算机世界里一开始只有英文，而单字节可以表示256个不同的字符，可以表示所有的英文字符和许多的控制符号；
2. 源代码文件中，如果有用到非ASCII字符，则需要在文件头部进行字符编码的声明，如下：#-*- coding: UTF-8 -*-
3. 实际上Python只检查#、coding和编码字符串，其他的字符都是为了美观加上的。另外，Python中可用的字符编码有很多，并且还有许多别名，还不区分大小写，比如UTF-8可以写成u8。

　　系统默认的字符编码

　　你说的是，把字符串：
\u3232\u6674
本身，转换为unicode字符吧？

那么可以通过：
slashustr = "\\u3232\\u6674";
decodedunichars = slashustr.decode("unicode-escape");
print "decodedunichars=",decodedunichars; #decodedunichars= (有) 晴

注：（有）是个特殊字符，如果想要在cmd（默认为gbk）中打印，会出错的。
unicodeencodeerror: 'gbk' codec can't encode character u'\u3232' in position 0: illegal multibyte sequence

但是，本身的确已经是转换好了unicode字符串了。

详情可参考：
【整理】python中，如何将反斜杠u类型（\uxxxx）的字符串，转换为对应的unicode的字符

（此处不能贴地址，请用google搜标题，即可找到帖子地址）

　　普通string是ascii,
u"abc"是unicode