
1 menc 2016 年 10 月 23 日 使用容错性高的 html parser ,但是这个问题我记得 bs4 是可以解决的 |
2 MinonHeart 2016 年 10 月 23 日 把标签写正确 |
3 binux 2016 年 10 月 23 日 lxml.html, html5parser |
5 menc 2016 年 10 月 23 日 |
6 mhycy 2016 年 10 月 23 日 碰上这种页面直接上正则表达式解决 |
7 binux 2016 年 10 月 23 日 @menc In [1]: import lxml.html In [2]: dom = lxml.html.fromstring(u'<a target="_blank" href="http://wenda.eask.org/"><b>我要提问</a></b>') In [3]: print lxml.html.tostring(dom, encoding="unicode") <a target="_blank" href="http://wenda.eask.org/"><b>我要提问</b></a> |
11 firemiles 2016 年 10 月 24 日 via Android 只识别标签头,任意结束标签当当前起始标签的结束,这么干就随意交叉,只要头的顺序对就行 |
12 jaimezhan 2016 年 10 月 24 日 写代码不严谨 或者使用编辑器的插件 自动补充关闭标签减少类似的错误代码 |