python3 编码转换问题十进制数组转 unicode

~> python3
Python 3.5.2 (default, Sep 14 2016, 11:28:32)
[GCC 6.2.1 20160901 (Red Hat 6.2.1-1)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import struct
>>> arr = [96, 79, 125, 89]
>>> struct.pack('B' * len(arr), *arr).decode('utf-16')
'你好'
>>>

raysonx

Dec 13, 2016

或者直接
>>> bytes(arr).decode('utf-16')
'你好'

raysonx

Dec 13, 2016

需要澄清的一是，「字符串“你好”的 unicode 编码是 '\u4f60\u597d'」表述有。
Unicode 是字符集，它只每一符於一，不心符的二制表示行式。
而主的需求是，一串 bytes 按 UTF-16 行解（ decode ）。
Unicode 是字符集(charset)， UTF 是(encoding)，不要搞混了。

toono

Dec 13, 2016

@raysonx 嗯嗯，谢谢耐心科普！！！！

imn1

Dec 13, 2016

如楼上所述， unicode 是个字符集，是个“类映射表”概念， ucs2, utf-7/8/16/32 等等才能称为编码

一般处理字符串的话， 2L 所写 bytes 比较方便，但主楼所写场景，如果考虑有可能其他混合数据， 1L 所写 struct 可能更适合

raysonx

Dec 13, 2016

哦了， UTF-16 有一的，就是分大小端序（ endianness ）。
主的例子是小端序(little endian ， UTF-16LE)的，即每一字符低位 byte 在前，高位 byte 在後（「你好」 60, 4f, 7d, 59 ）。
有一是大端序(big endian ， UTF-16BE)，即每一字符高位 byte 在前，低位 byte 在後（「你好」 4f, 60, 59, 7d ）。

同的， UTF-32 也分大小端序。不 UTF-8 不分大小端序。

toono

Dec 13, 2016

@imn1 嗯嗯， 1L 和 2L 的方法都方便，我暂时还没有数据混合，所以 2L 的够用了。你们这些概念好透彻啊，我是刚从事 python 开发，太小白了。

toono

Dec 13, 2016

@raysonx 对，我也发现了，所以如果实在没有办法了，就先将两个整数换顺序，然后转到 16 进制，再拼接成 unicode 字符的表示形式