求助正则表达式牛人帮忙解决一下

<a href="http://news.hsw.cn/younews/">前一页</a>  <a href="http://news.hsw.cn/system/more/25330000/0000/25330000_00000011.shtml">下一页</a>

<a href="http://news.hsw.cn/system/more/25330000/0000/25330000_00000012.shtml">下一页</a>

<a href="http://news.hsw.cn/system/more/25330000/0000/25330000_00000012.shtml">前一页</a>  <a href="http://news.hsw.cn/system/more/25330000/0000/25330000_00000010.shtml">下一页</a>

需要匹配下一页的URL
我是用的正则如下
re.compile(r'(?<=[\n|  ])<a href="(http://news.hsw.cn/system/more/.*?)">下一页</a>')
但是取不到第三种情况的URL，匹配结果是

http://news.hsw.cn/system/more/25330000/0000/25330000_00000012.shtml">前一页</a>  <a href="http://news.hsw.cn/system/more/25330000/0000/25330000_00000010.shtml

求指点！

href=

表达式

URL

17 replies 2014-08-30 07:26:42 +08:00

bindiry

Aug 21, 2014

<a href="(http://news.hsw.cn/system/more/((?!<).)+)">下一页</a>

这样行不行？

Arrowing

Aug 21, 2014

js简单的：
var s = '<a href="http://news.hsw.cn/system/more/25330000/0000/25330000_00000011.shtml">下一页</a>';

var r = /<a href="(.*)">下一页/;

s.match(r)[1];

alexapollo

Aug 21, 2014

endoffight

Aug 21, 2014

@bindiry
@alexapollo

感谢啦

二位的都可以，思路都很好感谢

endoffight

Aug 21, 2014

@Arrowing 确实很简单

Vonex

Aug 21, 2014

csensix

Aug 21, 2014

RewriteRule ^/(.*)$ %1/$1

大伙有空也帮忙解释一下这个正则，apache配置里面的，谢过。

imn1

Aug 21, 2014

善用字符排除 [^不可能字符]，不仅可以匹配更精确，还能加速正则

xylophone21

Aug 21, 2014

@bindiry
@alexapollo
的答案都破不了这种情况:
<a href="http://news.hsw.cn/system/more/25330000/0000/25330000_00000010.shtml">\n
下一页 < / a >

即">下一页</a>"
这几个字符中都可能插入回车,甚至空格都不影响实际使用.
正则之前把回车空格神马的都去掉吧.

另外,你确定前面的a标签url都是news.hw.cn开头的?确定不会有别的属性?

CosWind

Aug 21, 2014

@csensix http://stackoverflow.com/questions/6654834/difference-between-1-vs-1-in-htaccess
貌似要结合RewriteCond 看。Apache的官方文档应该是不错的参考资料。。

CosWind

Aug 21, 2014

@csensix 或者中文的文档 http://apache.jz123.cn/mod/mod_rewrite.html

CosWind

Aug 21, 2014

@endoffight 正则是贪心的，这样肯定匹配的比较多吧。

CosWind

Aug 21, 2014

/"([^"]*)">\s*下\s*一\s*页/这样可以么

diaoleona

Aug 21, 2014

为何不用xpath

endoffight

Aug 24, 2014

@diaoleona 你确定Xpath能解决吗？

WKPlus

Aug 28, 2014

虽然你加了?，表示非贪心的匹配方式，但是误解了贪心的意思，第三行还是会匹配到。

13楼说的不错，把.*?改为[^\"]*就可以了。

其实你都用python了，干嘛不用BeautifulSoup？用正则解析html吃力不讨好啊

endoffight

Aug 30, 2014

@WKPlus 当时追求快，懒得安装bs