爬虫提取 36 氪的文章正文,为什么抓取不到? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiaoyong
V2EX    问与答

爬虫提取 36 氪的文章正文,为什么抓取不到?

  •  
  •   xiaoyong 2016-05-03 19:29:41 +08:00 4594 次点击
    这是一个创建于 3451 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人使用 PHP 的: file_get_contents 和 curl 函数都未曾获取到。就认真研究了下 36 氪的正文加载过程。

    看了一下,它应该是使用 js 加载的正文内容。

    如果禁用 js 调试,正文就没有内容;否则,就可以正常显示。但是查看了下所有的 js 文件也没看出来头绪,如果使用“网页另存为”本地文件,再用浏览器打开也是没有正文。

    是不是使用了什么加密技术来获取正文(为了防止爬虫)?各位探讨一下。

    10 条回复    2016-05-03 21:54:51 +08:00
    binux
        1
    binux  
       2016-05-03 19:33:58 +08:00
    .js-react-on-rails-component
    Syc
        2
    Syc  
       2016-05-03 19:36:37 +08:00 via Android
    采集技术不够深,还需多多磨练
    function007
        3
    function007  
       2016-05-03 19:39:28 +08:00
    感觉就是丧心病狂的转义。。
    EchoWhale
        4
    EchoWhale  
       2016-05-03 20:39:20 +08:00
    这么丧心病狂地提防爬虫, 36 氪完全不需要讨好搜索引擎吗
    Tink
        5
    Tink  
    PRO
       2016-05-03 20:41:40 +08:00
    卧槽,这个有点吊
    titanp
        6
    titanp  
       2016-05-03 20:43:31 +08:00 via Android
    这种站可能怕爬虫直接原文转
    popok
        7
    popok  
       2016-05-03 20:52:35 +08:00 via iPhone   1
    正文都是直接在


    但是最终显示出来,应该是通过一个 js 解析的


    不是前段,只懂皮毛
    popok
        8
    popok  
       2016-05-03 20:53:45 +08:00
    @EchoWhale 然而,人家爬虫还是收录的好好的
    gimp
        9
    gimp  
       2016-05-03 21:10:58 +08:00 via Android
    使用 selenium 简单粗暴 哈哈
    qqmishi
        10
    qqmishi  
       2016-05-03 21:54:51 +08:00   1
    #encoding=utf8
    import requests
    import json
    import re

    url="http://36kr.com/p/5045314.html"
    r = requests.get(url).content
    json_data = json.loads(re.sub(""","\"",re.search("data-props=\"([^\"]+)\"",r).group(1)))
    print json_data['data']['post']['display_content']

    其实抓到 json_data 之后,后面就随便处理了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3288 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 11:51 PVG 19:51 LAX 04:51 JFK 07:51
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86