有没有精通 PDF 的大佬, PDF 教材,有没有办法,自动识别或者提取教材内容里的各级标题,生成书签或者生成思维导图,这样学习起来,整体化、结构化、树状图思维,提高效率! - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
JYL888
V2EX    问与答

有没有精通 PDF 的大佬, PDF 教材,有没有办法,自动识别或者提取教材内容里的各级标题,生成书签或者生成思维导图,这样学习起来,整体化、结构化、树状图思维,提高效率!/h1>
  •  
  •   JYL888 2020-08-29 16:44:54 +08:00 4048 次点击

    这是一个创建于 1867 天前的主题,其中的信息可能已经有所发展或是发生改变。
    PDF 教材没有书签,都是正文,我想让他自动识别或提取教材内容里的各个级别的标题,然后生成书签或者一键生成思维导图,省的我一个一个的去设置书签,四百多页,很麻烦!

    书籍逻辑是:
    第一章。。。 这种标题设为 1 级
    第一节 。。。 这种标题设为 2 级
    一、。。。 这种标题设为 3 级
    (一)。。。 这种标题设为 4 级
    1. 。。。 这种标题设为 5 级
    1 )。。。 这种标题设为 6 级
    1 )。。。 这种标题设为 7 级


    这些编号后面的内容,都是黑体字,我想让书籍,自动识别,自动生成书签或者大纲,或者提取出来,或者像思维导图一样,

    书籍的目录只到 3 级, 不够细化,我想细化到最低一级,这样子,就可以对书籍的整个结构,一目了然!!!!


    ![QQ 截图 20200829162143.png]( )
    ![171258hqmqtjzn5h8jnqtx.png]( )
    34 条回复    2020-08-30 23:59:49 +08:00
    HENQIGUAI
        1
    HENQIGUAI  
       2020-08-29 16:56:46 +08:00
    书不是越读越薄么,要这么多标题有什么用,顺便推荐一本《如何阅读一本书》
    ronman
        2
    ronman  
       2020-08-29 16:59:17 +08:00 via Android
    mark 一下,找到麻烦说一下。
    另外,其实做自己的话还是自己手打一下,顺便加深印象了。
    KMpAn8Obw1QhPoEP
        3
    KMpAn8Obw1QhPoEP  
       2020-08-29 17:01:43 +08:00 via Android
    这种扫描的好像都得手动加吧
    JYL888
        4
    JYL888  
    OP
       2020-08-29 17:07:56 +08:00
    @ronman 四百多页,狂多的各级标题!
    JYL888
        5
    JYL888  
    OP
       2020-08-29 17:08:27 +08:00
    @HENQIGUAI 把标题弄出来,就树状思维,就知道某个知识点,在哪个框架下面
    yangwcool
        6
    yangwcool  
       020-08-29 17:11:46 +08:00 via Android
    试试 PDF 补丁丁。这个软件有按标题生成书签的功能。不过我觉得不好用。
    L2AKnG8GXx60bc6P
        7
    L2AKnG8GXx60bc6P  
       2020-08-29 17:12:03 +08:00 via iPhone   1
    我啊,但是不感兴趣,不过你要是会编程的话随找个库转成 txt,再写个正则就行了,不过还需要人工筛选一下,要想做的完美、自动分级的话坑比较多,可以做成产品卖钱了。
    JYL888
        8
    JYL888  
    OP
       2020-08-29 17:27:20 +08:00
    @yangwcool 我也试过,不行
    TigerK
        9
    TigerK  
       2020-08-29 18:22:17 +08:00
    没有自动的啦,手动的可以用 bookxnote 来自己做
    JYL888
        10
    JYL888  
    OP
       2020-08-29 18:27:33 +08:00 via Android
    @TigerK 转成 word 去搞
    hoyixi
        11
    hoyixi  
       2020-08-29 18:28:45 +08:00
    有些阅读器,可以自己添加,读一节,加一节。

    你这好像是扫描然后做成的电子书,做的人没做书签目录。
    abc11
        12
    abc11  
       2020-08-29 18:38:21 +08:00
    用 iText7 做过类似的功能,几十行代码搞定
    JYL888
        13
    JYL888  
    OP
       2020-08-29 18:51:49 +08:00 via Android
    @hoyixi 是,没有书签,我只想把所有标题提取出来
    JYL888
        14
    JYL888  
    OP
       2020-08-29 18:51:57 +08:00 via Android
    @abc11 怎么搞
    carlclone
        15
    carlclone  
       2020-08-29 19:13:22 +08:00 via Android
    论坛里有大佬做过,忘记了
    JYL888
        16
    JYL888  
    OP
       2020-08-29 19:18:30 +08:00 via Android
    @carlclone 真假,v2ex 里吗?
    akring
        17
    akring  
       2020-08-29 19:48:45 +08:00
    MarginNote 自己慢慢标注吧,反正你也得通看一遍不是?
    JYL888
        18
    JYL888  
    OP
       2020-08-29 19:54:55 +08:00
    @ronman #2 https://github.com/zwxbest/autobookmark
    github 上有个好像能实现,但是我不知道,这怎么用,怎么操作
    jin7
        19
    jin7  
       2020-08-29 21:32:59 +08:00
    pdf 没有书签 需要书签? 我帮你弄 几块钱一次 行吗>>>>
    jin7
        20
    jin7  
       2020-08-29 21:33:17 +08:00
    JYL888
        21
    JYL888  
    OP
       2020-08-29 21:36:47 +08:00
    @jin7 #19 我这个比较复杂,不是淘宝上那种几块钱能搞的定的
    green15
        22
    green15  
       2020-08-29 21:37:43 +08:00 via iPhone
    自动生成目录,我见过;原理类似一些小说阅读器一样。一般是通用格式转化成 PDF 的正版电子书。至于图片扫描版的盗版 PDF,最起码把 OCR 搞好吧。
    生成思维导图……异想天开
    jin7
        23
    jin7  
       2020-08-29 21:38:55 +08:00
    @JYL888 #21 你这个又不复杂 再说你那个目录网上书店都有 复制粘贴
    JYL888
        24
    JYL888  
    OP
       2020-08-29 21:39:31 +08:00
    @green15 #22 OCR 过的,支持文字搜索的
    JYL888
        25
    JYL888  
    OP
       2020-08-29 21:40:51 +08:00
    @jin7 #23 前面的目录只细分到 一、这级标题,我要到 1) 最低级的标题
    ffxrqyzby
        26
    ffxrqyzby  
       2020-08-29 22:23:59 +08:00
    你可以试试 margin note
    我都是先用 margin note 生成标题, 然后在里面做笔记, 做关联
    Cielsky
        27
    Cielsky  
       2020-08-29 22:38:19 +08:00 via Android
    OCR 把标题列出来,手动指定页数,有个软件可以把标题直接插到 PDF 里的,名字给忘了,叫什么 toPDF
    jay0726
        28
    jay0726  
       2020-08-30 07:15:08 +08:00 via Android
    好像是之前从其他帖子看到的,还没试过
    https://krasjet.com/voice/pdf.tocgen/
    JYL888
        29
    JYL888  
    OP
       2020-08-30 11:01:37 +08:00
    @jay0726 应该就是这种思路了,但是好像没有网上好像没有成品软件
    SingeeKing
        30
    SingeeKing  
    PRO
       2020-08-30 14:47:40 +08:00
    JwhSir
        31
    JwhSir  
       2020-08-30 15:35:24 +08:00
    PdgCntEditor不完全满足你的要求,是一个手动添加书签的工具,但是相对比较方便了
    K1W1
        32
    K1W1  
       2020-08-30 19:41:37 +08:00
    跟我想法一样,通过标题生成思维导图,但是我用了另一种更简单思路,通过抓豆瓣页面,豆瓣书籍的详情中,大多数都是有目录的(注意并不是都有),然后调用 xmind 的 sdk 生成。文章在这
    https://mp.weixin.qq.com/s/3ywHc9CgWdf_s7e6llqGAA
    krjt
        33
    krjt  
       2020-08-30 23:53:55 +08:00
    @JYL888 ?我的 pdf.tocgen 就是面向用户的,虽然完全是命令行操作。模仿第一节的 overview 里的指令基本就可以了。安装指令见第二节。
    krjt
        34
    krjt  
       2020-08-30 23:59:49 +08:00
    @JYL888 如果没有编程经验的话,首先安装 Python 3 [1] 以及 pip [2],之后在命令行输入

    pip install -U pdf.tocgen

    接下来按照 #28 或者 #30 里的指令输入就可以了。

    [1]: https://www.python.org/downloads/windows/
    [2]: https://pip.pypa.io/en/stable/installing/
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     871 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 38ms UTC 21:24 PVG 05:24 LAX 14:24 JFK 17:24
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86