
1 zhuangzhuang1988 2020-02-03 02:11:33 +08:00 应该得用上下文无关文法(CFG)吧 |
2 noqwerty 2020-02-03 02:36:01 +08:00 via Android 这种情况用 html parser 会比正则省很多脑细胞 |
3 wwcchn9 2020-02-03 02:38:34 +08:00 理论上来讲,regex 就没有足够的能力 parse CFL,为啥不用 CFG 呢? |
4 xupefei 2020-02-03 02:48:57 +08:00 状态机…… |
5 laminux29 2020-02-03 09:43:52 +08:00 正则从理论上来说就是大幅度压缩代码。 一些简单的逻辑,用正则没问题,但太复杂的逻辑,压缩成正则后,可读性、可改性以及可调试性都变得很差。 建议复杂的情况,老老实实写代码,不要用正则。 |
6 hakono 2020-02-03 09:58:49 +08:00 via Android 搞不懂楼主为什么一定要用正则去匹配,纯粹给自己找麻烦 用 dom 解析器配合 css 选择器选出需要的 html 标签然后用简单的正则把里面需要的文本提取出来不就行了 |
7 Kirscheis 2020-02-03 10:48:48 +08:00 via Android 计算机科学小常识:不要用正则去处理 HTML,除非是在写那种用完一两次就可以丢掉的爬虫脚本之类的东西 |
8 autoxbc 2020-02-03 15:05:34 +08:00 每次你用正则处理序列化的结构数据,就是重新写了一遍这种数据结构的解析器 |