字符编码的坑很多,一个简陋的 Unicode 强迫症可视化工具 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
garywill
V2EX    Node.js

字符编码的坑很多,一个简陋的 Unicode 强迫症可视化工具

  •  
  •   garywill 2023-02-13 09:04:34 +08:00 3158 次点击
    这是一个创建于 1017 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不知道叫什么名好,用丑陋的 web UI 做的这个工具,估且叫《 Unicode 强迫症可视化》

    字符编码的坑很多。(太多了,具体看 readme 里写了一堆): https://github.com/garywill/cc-visualize

    Screenshot

    unihan 的坑也有,像之前的什么“入职”字的事:

    汉字本身的繁简异体关系也多

    Screenshot

    有谁踩了坑了呢? rime 和 fcitx 这两个开源输入法的 table 中就有坑: https://github.com/garywill/cc-visualize/discussions

    那些搜狗、苹果之类的输入法里肯定也有。自己尝试把同形汉字字符输入搜索引擎,可以发现中文网络上的内容已经含有那些坑在里面了

    7 条回复    2023-02-15 15:32:12 +08:00
    WindProtect
        1
    WindProtect  
       2023-02-13 12:03:59 +08:00
    不错,赞一个
    tramm
        2
    tramm  
       2023-02-13 13:20:35 +08:00
    顶, 有没有那种看起来是汉字实际不是的那种编码呢?

    之前有个人离职, 接手他的代码, 有好多字虽然看着正常, 但是特么根本搜不到.

    就比如: 作模式(工), 累计程(里)...看起来正常, 但是在 IDE 中搜不到, 看了下提交记录, 显示的是个方框里面一个符号 :P
    shijingshijing
        3
    shijingshijing  
       2023-02-13 13:25:40 +08:00
    不错,前些时帮人弄 pdf 检索工具,提取文本,那些个 pdf 有法语的文档,有德语的,有混合希腊字母的,还有 ASCII 码编码的特殊字符,也有 Unicode 编码的特殊字符,本来以为是一个 Python 脚本就能搞定的小 Case ,后来可把我坑惨了。
    garywill
        4
    garywill  
    OP
       2023-02-13 14:14:24 +08:00   1
    @tramm 应该已经涵盖了你说的那些的。下次你放进去试试,把所有选项勾上
    cnbatch
        5
    cnbatch  
       2023-02-14 16:18:47 +08:00
    这个工具很有用,正常文字混用康熙部首实在很不应该,因为会导致文本搜索功能无效化

    某些输入法害人害惨了,我猜测那个读论文系列的作者肯定也是用了这类有坑的输入法,他发的每篇博文几乎都有康熙部首混进去代替正常文字
    cnbatch
        6
    cnbatch  
       2023-02-14 16:31:55 +08:00
    找到了,那个一分钟读论文系列,随便找两个:
    /t/911818
    /t/912321
    只要用 Windows 就能看得出明显不同,比如搜索“生产力”,是无法匹配标题的,因为标题就用了康熙部首
    C02TobNClov1Dz56
        7
    C02TobNClov1Dz56  
       2023-02-15 15:32:12 +08:00
    看起来很有用, 赞一个
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     906 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 21:10 PVG 05:10 LAX 13:10 JFK 16:10
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86