请问用 Node 的爬虫朋友,有遇到过偶然出现中文变成方块问号字符的情况吗? - V2EX
wontoncc

请问用 Node 的爬虫朋友,有遇到过偶然出现中文变成方块问号字符的情况吗?

  •  
  •   wontoncc May 19, 2013 6618 views
    This topic created in 4746 days ago, the information entioned may be changed or developed.
    估计是变成坏掉的不完整的UTF-8字符了,求解决方案。

    另外,估计不是编码问题,因为出现问题的字符是随机的,并不固定。
    Supplement 1    May 20, 2013
    https://github.com/wontoncc/cnbetaCC 代码仓库在这边,主要是 worker 和 processor 做爬取信息的处理。
    Supplement 2    May 21, 2013
    重新写了一遍抓取的代码,用 stream 和原生 buffer 处理,并没有出现这个问题;
    估计是 bufferhelper 模块的问题:https://github.com/JacksonTian/bufferhelper
    有点可笑的是,bufferhelper 这个模块本身就是为了防止 chunk 拼接的时候被阶段的问题…

    我自己的处理方案是:
    var buf = Buffer(0);
    ...
    res.on('data', function(chunk){ ... buf = Buffer.concat([buf,chunk]); ... });
    res.on('end', function(){ ... buf = Buffer(0); });

    于是这贴可以结了,感谢各位的指教。
    15 replies    1970-01-01 08:00:00 +08:00
    chemzqm
        1
    chemzqm  
       May 19, 2013   1
    可能抓到的是gzip版本,设置请求头 Accept-Encoding:deflate
    wontoncc
        2
    wontoncc  
    OP
       May 19, 2013
    @chemzqm 刚刚测试了一下,还是不行。会不会跟用了 iconv-lite 转码有关?
    orzfly
        3
    orzfly  
       May 19, 2013   1
    随机的?话说js好像不支持0~0xFFFF之外的字符。
    inaction
        4
    inaction  
       May 19, 2013 via Android   1
    @wontoncc 对,有些字符没对应,比如 []
    inaction
        5
    inaction  
       May 19, 2013
    测试:刚才明明发的中文字符:〖〗,变成了[]
    skydiver
        6
    skydiver  
       May 19, 2013
    @inaction v2ex确实会转化这个字符。。。不知是不是L大不喜欢这个符号。。。
    wontoncc
        7
    wontoncc  
    OP
       May 19, 2013
    @inaction
    @orzfly

    那请问还有什么处理GBK的方法?
    juicy
        8
    juicy  
       May 20, 2013   1
    会不会是你本机缺少相应的字符库,而抓到的数据本身是没问题的?也许在其他有相应字符库的机子上是显示正常的?
    wontoncc
        9
    wontoncc  
    OP
       May 20, 2013
    @juicy 刚刚测试了一下,并不是这个问题。
    而且因为是随机的缘故,本来有些字这次请求完好,下一次请求却坏到了。如果是字库问题应该一直都看不到才对。
    juicy
        10
    juicy  
       May 20, 2013
    @wontoncc 那会不会是源头就是坏的呢。。。没准用别的语言爬也是这样的结果。。
    leafduo
        11
    leafduo  
       May 20, 2013   1
    贴代码吧
    wontoncc
        12
    wontoncc  
    OP
       May 20, 2013
    @leafduo 已经附上了。
    wontoncc
        13
    wontoncc  
    OP
       May 21, 2013
    @chemzqm
    @orzfly
    @inaction
    @juicy
    @leafduo

    非常感谢各位,问题已经解决了。请见 APPEND。
    juicy
        14
    juicy  
       May 21, 2013
    恭喜楼主攻克难题~~~
    chemzqm
        15
    chemzqm  
       May 21, 2013
    给他提个issue吧,方便其他人。
    About     Help     Advertise     Blog     API     FAQ     Solana     3221 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 59ms UTC 14:40 PVG 22:40 LAX 07:40 JFK 10:40
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86