网上搜了一圈没有找到合适,做下伸手党。 爬虫得到的是 html 内容,带大量各类标签及 css,id 等 attr 内容, 想通过一个库之间输出干净的 html 只保留简单的 p br img 等标签,谢谢大家
1 fan2006 2019-01-03 11:38:05 +08:00 用过 lxml 和 beautifulsoup4. |
2 boom7 2019-01-03 11:38:38 +08:00 lxml.html.clean 试一下? |
3 JackeyGao 2019-01-03 11:49:02 +08:00 不确定这个可以不可以, 试试看吧。 https://github.com/kennethreitz/requests-html |
4 lihongjie0209 2019-01-03 11:51:24 +08:00 不就是 dom 树的 变量 |
5 lihongjie0209 2019-01-03 11:53:55 +08:00 变量 -> 遍历 |
6 ivechan 2019-01-03 12:30:35 +08:00 |
![]() | 7 poorcai 2019-01-03 12:34:52 +08:00 via iPhone 搭车问 小程序 中有没有好用的?搜了下只有 wxParse ?而且得不到有用的信息 |
![]() | 8 villivateur 2019-01-03 12:56:27 +08:00 via Android Beautiful Soup |
![]() | 9 tabris17 2019-01-03 12:59:41 +08:00 就说一个,pyquery 有坑,其他如何不清楚 |
10 Huelse 2019-01-03 13:05:48 +08:00 beautifulsoup4 容易点 |
![]() | 11 huluhulu 2019-01-03 13:09:32 +08:00 via iPhone Beautiful Soup 很好用 |
12 WeaponXu 2019-01-03 16:57:07 +08:00 bs4 啊 |
![]() | 13 heiybb 2019-01-03 17:05:04 +08:00 via Android 居然没人说 pyquery 嘛 |
14 Olorin 2019-01-03 18:09:38 +08:00 beautifulsoup4 |