xpath 用什么软件能准确抓取? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
17 条回复    2016-08-19 00:28:27 +08:00
loading
    1
loading  
   2016-08-18 11:44:55 +08:00 via Android
能用就行啦,别人是自己优化过的, chrome 是自动的,当然不同。
lgh
    2
lgh  
   2016-08-18 12:28:53 +08:00
用 XPath 定位某个元素的方法可能有无数种,但软件只能死板地生成一种,你觉得能让你满意的概率有多大?
zencoding
    3
zencoding  
   2016-08-18 14:28:44 +08:00 via Android
有 chrome 扩展,一直在用
xiaoyu9527
    4
xiaoyu9527  
OP
   2016-08-18 14:37:08 +08:00
@zencoding 哪个扩展
imn1
    5
imn1  
   2016-08-18 15:13:37 +08:00
同一个元素有很多种 xpath 写法的
wgx
    6
wgx  
   2016-08-18 15:48:09 +08:00
您好,请问最近有看机会吗?国内 最大 的跨境快时尚电商公司 shein 招聘后台技术总监(带团队, python 开发),经验要求 5-10 年, 25k-40k ,五天七小时,下午茶,季度旅游,坐标深圳南山大学城。联系微信: 13226230923 ,邮箱 [email protected]
changshu
    7
changshu  
   2016-08-18 15:59:19 +08:00
对于抓取 html 后的 xpath 选取, 以实调 html 为准, 浏览器 f12 提供的仅能做参考
changshu
    8
changshu  
   2016-08-18 16:00:57 +08:00
原因忘写了

一来浏览器提供的 dom 树可能被 js 修改过, 和你抓到的原生 html 不一致

二浏览器会对抓取到的 html 做一定程度的修正, 和你抓到的原生 html 也有可能不一致
xiaoyu9527
    9
xiaoyu9527  
OP
   2016-08-18 16:16:36 +08:00
@wgx 资格不够呀。


@changshu 请能帮我分析一下有啥不一样么? 我贴个例子

//*[@id="maincontent"]/div[1]/div[1]/h2/a 我用 F12 COPY 出来是这样

//h2/a/@href

而这个蜘蛛的作者写的是这样。 虽然我看的明白 后者就是 //h2/a/href 跟我 最后两段一样。

但是我不明白 如果我复制出来的这种 应该怎么写呢
prefere
    10
prefere  
   2016-08-18 16:26:15 +08:00
// 从非根任意节点开始匹配
* 匹配任意元素
[@] 属性选择器
[index] 匹配第 index-1 个元素
laoyur
    11
laoyur  
   2016-08-18 16:32:51 +08:00
@xiaoyu9527 『如果我复制出来的这种 应该怎么写呢』
没看懂你在问什么, 5 楼已经说了,同一个元素的 xpath 有 N 种写法,你要测试自己写的对不对,直接在 Elements tab 下按 Ctrl + F 搜索,然后输入你自己写的就行了
prefere
    12
prefere  
   2016-08-18 16:34:23 +08:00
更正:最后一条错了,[index] 匹配第 index 个元素。
xiaoyu9527
    13
xiaoyu9527  
OP
   2016-08-18 16:58:50 +08:00
//div[1]/ul/*/div/h3/a 为什么这样抓不出来连接
//div[1]/ul/*/div/h3/a/@href 就可以抓出来链接

@href 这个是什么意思?
laoyur
    14
laoyur  
   2016-08-18 17:01:33 +08:00
@xiaoyu9527 那还是建议你去看看 xpath 手册
@href 的意思是 a 的 href 属性啊
xiaoyu9527
    15
xiaoyu9527  
OP
   2016-08-18 18:37:17 +08:00
@laoyur 我看了。。
changshu
    16
changshu  
   2016-08-18 20:27:53 +08:00
@xiaoyu9527

第一个是获取元素

第二个是获取某元素的 href 属性

xpath 本身的写法比较多, 好像老王的儿子也可以是老张的邻居一样, 没什么唯一的写法.

一切以调试你获取的 html 为准, 别多管 chrome 给的提升.
xiaoyu9527
    17
xiaoyu9527  
OP
   2016-08-19 00:28:27 +08:00
@changshu 学习到了。
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1065 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 24ms UTC 18:10 PVG 02:10 LAX 11:10 JFK 14:10
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86