十年网站开发经验 + 多家企业客户 + 靠谱的建站团队
量身定制 + 运营维护+专业推广+无忧售后,网站问题一站解决
这篇文章主要介绍python3中utf-8编码转换的方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
石鼓ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景,ssl证书未来市场广阔!成为创新互联公司的ssl证书销售渠道,可以享受市场价格4-6折优惠!如果有意向欢迎电话联系或者加微信:18982081108(备注:SSL证书合作)期待与您的合作!
utf-8编码将一个 unicode 字符编码成 1~6 个字节,常用的英文字母被编码成 1 个字节,汉字通常是 3 个字节,只有很生僻的字符才会被编码成 4~6 个字节。注意,从 unicode 到 utf-8 并不是直接的对应,而是通过一些算法和规则来转换的。
来看一下具体编码例子吧:
>>> list('中'.encode('utf-8')) [228, 184, 173] >>> list('a'.encode('utf-8')) [97]
可以看出,utf-8 将汉字‘中’编码成了三个字节,将英文字母‘a’编码成了一个字节,且utf-8编码兼容ASCII编码。
拓展:unicode 编码
为每种语言制定一套编码方式实在是太蠢了!为什么不能把所有语言的所有字符一起编码呢?
把所有语言统一到一套编码里,这套编码就是 unicode 编码。使用unicode编码,无论处理什么文本都不会出现乱码问题了。
unicode 编码使用两个字节(16位bit)表示一个字符,比较偏僻的字符需要使用4个字节。
但是新的问题又来了,如果一段纯英文文本,用 unicode 编码存储会比用ASCII编码多占用一倍空间!无论是存储还是传输都很浪费!
以上是python3中utf-8编码转换的方法的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注创新互联行业资讯频道!