
在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?
目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。
1 Jackeriss 2020-08-02 11:42:22 +08:00 via iPhone beautifulsoup |
2 ochatokori 2020-08-02 11:59:11 +08:00 via Android 可以的话用 python 吧,python 应该有不少 html 解析库 |
3 misaka19000 2020-08-02 12:21:10 +08:00 python -> xpath |
4 ipadpro4k 2020-08-02 13:24:30 +08:00 via iPhone 各种 soup |
5 labubu 2020-08-02 19:17:43 +08:00 bs4 |
6 csx163 2020-08-02 23:57:17 +08:00 这个深有感触,还是正则靠谱 |
7 shadeofgod 2020-08-03 00:39:51 +08:00 via ihone |
8 lxilu 2020-08-03 00:56:06 +08:00 via iPhone C#平衡对 |
9 kiancyc 2020-11-06 17:35:13 +08:00 |