汉语古文断句预训练模型 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
oopus
V2EX    分享创造

汉语古文断句预训练模型

  •  2
     
  •   oopus 2021-11-18 12:48:1 +08:00 2373 次点击
    这是一个创建于 1504 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://github.com/cbdb-project/sentence-segmentation-for-chinese-historical-texts

    这是基于 LSTM 的预训练模型。此模型可帮助您为汉语古文断句。任何人都可以在 CC BY-NC-SA 4.0 许可证下使用此预训练模型。

    我们在 2018 年建立此模型。(Xu Han, Hongsu Wang, Sanqian Zhang, Qunchao Fu, and Jun S Liu. 2018. “Sentence Segmentation for Classical Chinese Based on LSTM with Radical Embedding.”)虽然模型已很老旧,我们发现当前并没有项目在 GitHub 上公开用于汉语古文断句的预训练模型。因此我们认为它仍能帮到一些项目。

    此仓库并不是任何当下断句或者标点系统的竞争者。如果您有资金支持或者有其他选择,请选择那些当下的商业化断句、标点模型,或利用自己的资源训练合适的「现代」模型。

    此仓库仅希望为以下项目、学者、爱好者提供帮助:1 )希望标记成千上万条语料记录,研究结论对标点正确率容忍度高。2 )无法建立自己的古汉语断句、标点模型。3 )无力支付付费模型。

    在本仓库的 training-data/ 目录下,您可以找到我们用于训练此模型的语料。如果希望帮助上述项目、学者、爱好者,您亦可基于这些训练集训练自己的模型,或丰富训练集的内容。我们欢迎任何人向本仓库提交代码或无版权问题的语料。我们期待在中国历史研究中,未来会有更多的预训练模型开放给公众。

    我们丢失了用于训练模型的源代码,但未来如果找到,第一时间更新在此仓库中。


    来自作者之一的私话:

    「安得广厦千万间」,这个 repo 服务的对象是「天下寒士」。能吃饱、穿暖的项目和研究者,请一定购买和支持商业化方案。买不起、用不起但是想一试的「寒士」,至少还有一个选择。这个模型的正确率,论文作者们当时就认为距离真正能帮助人文研究还远得多,所以一直也没有发布,更不要说到今天大量更优秀的模型发布。但是看到直到 2021 年,GitHub 上完全搜不到一个用来断句的预训练模型,心里就很不舒服。

    如果能用这个项目来刺激一些组分享自己的预训练模型,快速淘汰这个老旧的模型。即便是这样,我自己也会很欣喜。

    2 条回复    2021-11-19 10:46:23 +08:00
    Chipmunker
        1
    Chipmunker  
       2021-11-19 08:57:17 +08:00   1
    好像训练数据集是简体的。那是不是不能直接用于繁体文本?
    oopus
        2
    oopus  
    OP
       2021-11-19 10:46:23 +08:00 via iPhone
    @Chipmunker 谢谢你的细心观察,繁简都可以的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2327 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 11:27 PVG 19:27 LAX 03:27 JFK 06:27
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86