This topic created in 4283 days ago, the information mentioned may be changed or developed.
写爬虫抓文章,打算是将某个div下的所有html弄出来,结果这一步就搞不定了,我对lxml还是了解不深,这里求个方法。
另外计划是转换成markdown或者rst再转换回html来清除html格式,这里也搭车求推荐点库。或者更好的方案。
3 replies 2014-08-08 13:41:22 +08:00  | | 1 fy Aug 7, 2014 我弄到答案了……
html = lxml.html.tostring(node)
不过还是求助第二条 |
 | | 2 binux Aug 7, 2014 lxml.html.tostring .text_content() |