求指教,我这个链接的正则表达式写的对吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yuluofanchen
V2EX    问与答

求指教,我这个链接的正则表达式写的对吗?

  •  
  •   yuluofanchen 2017-05-19 16:55:55 +08:00 1581 次点击
    这是一个创建于 3098 天前的主题,其中的信息可能已经有所发展或是发生改变。

    链接,http://www.xuexila.com/sudu/fazhan/ 我想抓取,这个目录下的链接,在练习神箭手做爬虫来练习下,看了几个 demo,昨晚成功写了一个,心底很高兴,挺有成就感的,但是今天抓取的,感觉有点怪,抓取到了其他目录的链接。

    我是这样写的正则。 var cOnfigs= { domains: ["www.xuexila.com"],// 网站域名,设置域名后只处理这些域名下的网页 scanUrls: ["http://www.xuexila.com/sudu/fazhan/"],// 入口页链接,分别从这些链接开始爬取 contentUrlRegexes: [/http://www.xuexila.com/sudu/fazhan/\d+.html/],// 内容页 url

    /http://www.xuexila.com/sudu/fazhan/\d+.html/ 不知道这个写法对吗,这个是参考了里面的 demo,然后瞄了一眼 30 分钟入门正则的,晚上打算认真学习下正则,感觉挺有用的。谢谢大家了。

    ps:学 python 挺有趣的,现在在看嵩天老师的 python 程序设计,第 4 周。还没到爬虫那一块。自学一点就是学起来费劲,比如我昨天刚接触的神箭手,前面三行代码看了几个 demo 才写的,后面的抽取规则,不懂,一开始没写,然后运行,没有抓取结果,然后重新看了下代码,发现要写抽取规则,看见 // 默认使用 xpath 抽取,我的天,不懂 xpath,赶紧百度了一下,看到是要把 html 转换成 dom 节点,然后我又去百度了下在线 html 转换 dom,搜了好久没搜到,后来看到一篇文章,说打开网页,然后右键,审查元素,然后复制 xpath,原来这么简单,我会了。但是实际上,有 xpath 语法的,因为我抽取标题的规则,是直接右键,然后复制出来的是 /html/body/div[5]/div/div[2]/div[1]/h1,我又试了下,发现不行,然后又跑去看了下 demo,又看了一眼 xpath,结果发现,标题的抽取直接 //h1 就可以了。反正折腾下来,就写了一个小爬虫。哈哈。然后昨晚,问了关于 xpath 的一个问题,t/362343,我试了下,没成功,晚上再去摸索一下。现在是链接的正则,我不知道对不对,还是请大家帮忙看下,谢谢。

    5 条回复    2017-05-20 08:56:19 +08:00
    yuluofanchen
        1
    yuluofanchen  
    OP
       2017-05-19 16:59:30 +08:00
    oott123
        2
    oott123  
       2017-05-19 23:43:33 +08:00 via Android
    我只想问你到底是在学 Python 还是在学 js …
    为啥你贴的这个代码是 js 的呢?

    …另外就是一直提某个网站是不是有广告嫌疑了
    oott123
        3
    oott123  
       2017-05-19 23:44:03 +08:00 via Android
    哦,回答正则的问题,写得不对,/和.都没有转义
    yuluofanchen
        4
    yuluofanchen  
    OP
       2017-05-20 07:50:57 +08:00 via Android
    @oott123 看图片,我源码是对的,转义了。如果有广告嫌疑,我以后不提了,谢谢,我自己看书学习。
    oott123
        5
    oott123  
       2017-05-20 08:56:19 +08:00 via Android   1
    图片里最后一个 . 买转义 不过不影响
    我理解不是广告,我意思是你前面说 Python 后面突然 js 感觉就很奇怪像是广告…
    _(:з」∠)_再说这种看上去不太知名的平台学会了义也不太大?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5694 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 02:54 PVG 10:54 LAX 18:54 JFK 21:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86