
有一个文章模板,基本就是目录,内容,树状格式,章节之间的关系用 json 定义
章节 1 内容 章节 1.1 内容 章节 1.1.1 。。。 章节 1.2 内容 章节 2 。。。 基于这个模板的文章,某些章节和内容都可能缺失
想把这个文章按照章节模板转化成这样的 json
章节 1 内容 章节 1/章节 1.1 内容 章节 1/章节 1.1/章节 1.1.1 内容 章节 1/章节 1.2 内容 怎么设置匹配方案
注意到,章节和内容在形式上没有区别,章节是字符串表示,而内容可能是字符串也可能 是字符串数组。
1 coderluan 2023-09-25 14:02:42 +08:00 得先找到一个办法去区分章节和内容吧,然后遍历内容,向前获取章节就行了。 如果没办法区分章节和内容,而章节和内容又都可能缺失,你这个就相当于,内容内容内容,没办法知道是内容/内容内容,还是内容内容/内容。 |
2 opengps 2023-09-25 14:04:13 +08:00 如果可以确认所有末节点的内容是单行的,那么 tab 就是你的识别符了 |
3 NoOneNoBody 2023-09-26 14:14:13 +08:00 json -> nested dict -> xpath ,后面这步网上有,搜一下能找到,基本上就是 key 递归 |