在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?
目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。

在 Linux 服务器上,需要从几千个 HTML 文件里提取一些指定内容,请问有哪些好用的 HTML 解析器可以使用?
目前试过用 awk,但 HTML 标签太多,内容所在的地方也不相同,匹配起来很复杂。
1 Jackeriss Aug 2, 2020 via iPhone beautifulsoup |
2 ochatokori Aug 2, 2020 via Android 可以的话用 python 吧,python 应该有不少 html 解析库 |
3 misaka19000 Aug 2, 2020 python -> xpath |
4 ipadpro4k Aug 2, 2020 via iPhone 各种 soup |
5 labubu Aug 2, 2020 bs4 |
6 csx163 Aug 2, 2020 这个深有感触,还是正则靠谱 |
7 shadeofgod Aug 3, 2020 via iPhone |
8 lxilu Aug 3, 2020 via iPhone C#平衡对 |
9 kiancyc Nov 6, 2020 |