用户登录
用户注册

分享至

python impala 编码

  • 作者: Mr点BUG
  • 来源: 51数据库
  • 2020-10-03
Python的默认编码是ASCII格式:
1. ASCII(American Standard Code for Information Interchange),是一种单字节的编码。计算机世界里一开始只有英文,而单字节可以表示256个不同的字符,可以表示所有的英文字符和许多的控制符号;
2. 源代码文件中,如果有用到非ASCII字符,则需要在文件头部进行字符编码的声明,如下:#-*- coding: UTF-8 -*-
3. 实际上Python只检查#、coding和编码字符串,其他的字符都是为了美观加上的。另外,Python中可用的字符编码有很多,并且还有许多别名,还不区分大小写,比如UTF-8可以写成u8。



  系统默认的字符编码



  你说的是,把字符串:
\u3232\u6674
本身,转换为unicode字符吧?

那么可以通过:
slashustr = "\\u3232\\u6674";
decodedunichars = slashustr.decode("unicode-escape");
print "decodedunichars=",decodedunichars; #decodedunichars= (有) 晴

注:(有) 是个特殊字符,如果想要在cmd(默认为gbk)中打印,会出错的。
unicodeencodeerror: 'gbk' codec can't encode character u'\u3232' in position 0: illegal multibyte sequence

但是,本身的确已经是转换好了unicode字符串了。

详情可参考:
【整理】python中,如何将反斜杠u类型(\uxxxx)的字符串,转换为对应的unicode的字符

(此处不能贴地址,请用google搜标题,即可找到帖子地址)



  普通string是ascii,
u"abc"是unicode
软件
前端设计
程序设计
Java相关