求助，' ' 是什么属于字符？怎么将它转换成正常的字符

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1599 天前的主题，其中的信息可能已经有所发展或是发生改变。

RT,系统最近接收到一些这种输入，第三方接口无法识别，导致处理失败，有 v2er 知道这种字符是怎么输入或者转换的吗

字符

13 条回复 2021-08-16 08:00:38 +08:00

creanme

2021-08-13 16:03:04 +08:00

unicode? 不知道怎么转

KagurazakaNyaa

2021-08-13 16:03:06 +08:00

base64

slowman

2021-08-13 16:08:43 +08:00

https://unicode-table.com/en/1D44E/

wangkun025

2021-08-13 16:08:44 +08:00

第三方处理不了 utf8 的话，就没什么办法。
这个就是 utf8，第一个字符 Unicode number 应该是 U+1D440

learningman

2021-08-13 16:08:56 +08:00 via Android

这些是某些小语言里面的字体，长得跟英文像，被拿来当艺术字了。
这个没有直接转换的办法，你只能自己维护一个映射列表。我觉得干脆禁止更干脆一点。
如果你要问这是什么编码的话，那只能说只要你能看到，那就肯定 Unicode 。

wangkun025

2021-08-13 16:10:55 +08:00 /> 1</span> <div class=

这个没法转换的。类似于把一个中文的字符转换成英文，本质上是无法转换的。
让第三方接受 utf8 是正途。

slowman

2021-08-13 16:14:15 +08:00

还挺有意思的，试一下效果

Sans-serif bold italic symbols

Dotless symbols

Double-struck digits

Double-struck symbols

vvong

2021-08-13 16:26:01 +08:00

@1423
@wangkun025
@learningman
@wangkun025
@1423
当在 google 中搜索这个单词的时候它搜索的页面是正常的字母所以想知道这中间是如何处理的

hahastudio

2021-08-13 16:32:42 +08:00 via Android

Unicode normalization

013231

2021-08-13 16:36:47 +08:00

中的字母於“Mathematical Alphanumeric Symbols”. 其“正常”字符的行叫“Unicode Normalization”.
以 Python 例, 可以使用中的 unicodedata.normalize 做的.

>>> import unicodedata
>>> print(unicodedata.normalize('NFKD', ' '))
Mbakunda alex

hahastudio

2021-08-14 10:26:01 +08:00

说起来，这个帖子的 tag 是怎么回事，是分词 bug 了么 @livid

learningman

2021-08-14 12:12:13 +08:00

@hahastudio 应该是，估计是 4 字节 unicode 被当成 3 字节处理了

Conty

2021-08-16 08:00:38 +08:00

我倒是经常收到类似编码的垃圾邮件，subject 就是这样的，让你能读懂，但是又没法用关键词过滤。

大家有啥好办法吗？