现在文本分析技术发展到哪一步了? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
ColinZeb

现在文本分析技术发展到哪一步了?

  •  
  •   ColinZeb Jan 19, 2018 2352 views
    This topic created in 3019 days ago, the information mentioned may be changed or developed.

    现在我们要做一些文章中提取数据和分段(提取目录),比如一篇合同。

    提取出来的目录是

    1. 基本信息(甲方乙方
    2. 基本条款
    3. 附加条款
    4. 违约条款

    要提取出的数据是

    1. 甲方要求的交付期限
    2. 甲方付款笔数和金额
    3. 乙方违约金额

    这些只是举例,实际上可能会更多。

    不知道现在什么技术能做到,正则表达式肯定不用想了,格式太乱, 调试的时间和手工提取时间没差多少,再加上数据量很大,所以就没法考虑了。

    听说 google 有个 tensorflow 项目,但是不太了解能不能做到。

    请各位给点意见,或者说下招到能做到这样效果的技术人员薪资大概多少。

    6 replies    2018-01-19 16:00:32 +08:00
    fengdra
        1
    fengdra  
       Jan 19, 2018 via Android   1
    现在的 NLP 技术很难理解语义,很多时候还不如手写正则表达式。
    如果非要用的话,大概有两种方式。第一种是找人标数据来训练端对端的模型,一般也只是用 SVM 之类的传统模型,不需要非常多的数据。
    第二种是用句法分析器之类的现成工具提取比较高级的特征,然后写规则。
    ColinZeb
        2
    ColinZeb  
    OP
       Jan 19, 2018
    @fengdra 感谢指引 我去查查
    neosfung
        3
    neosfung  
       Jan 19, 2018   1
    同意一楼,除非这个任务的价值特别大,值得投资人力来标注语料库,否则还不如用正则来的快。
    嫌正则慢,可以考虑一下新出来的 flashtext https://github.com/vi3k6i5/flashtext
    ColinZeb
        4
    ColinZeb  
    OP
       Jan 19, 2018
    @neosfung 我不是嫌弃正则运行效率低,而是因为数据量太大而且规则不统一所以正则编写调试效率低
    littlepanzh
        5
    littlepanzh  
       Jan 19, 2018
    takato
        6
    takato  
       Jan 19, 2018
    Attention+端对端。。
    上面的方法好是好,可是。。。gap 了一个时代了啊。。。
    About     Help     Advertise     Blog     API     FAQ     Solana     917 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 37ms UTC 22:36 PVG 06:36 LAX 15:36 JFK 18:36
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86