怎么从一句文字描述做分类?求机器学习的兄弟指点方案 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
wolfzz
V2EX    程序员

怎么从一句文字描述做分类?求机器学习的兄弟指点方案

  •  
  •   wolfzz 2020-08-20 12:27:50 +08:00 1854 次点击
    这是一个创建于 1886 天前的主题,其中的信息可能已经有所发展或是发生改变。

    要解决一个分类问题,通过计算机从受伤情况的文字描述来判断受伤等级;

    如 输入: 某某左手食指粉碎性骨折 输出: 六级

    输入文字可能存在近义词,比如食指可以也写成第二指; 目前有一个规则集,定义了各个级别伤害指标,如六级伤害的指标,手部受伤情况,头部,腿部等等。 还有几万的案例数据。

    问下这个用什么方案识别率要好呢?

    我的思路是做一个专用词汇表,先做分词 然后做同义词词汇表,规范化输入 然后查规则集,但是不知道怎么做匹配? 或者用案例数据训练,用什么技术方案? tensorflow 可以支持类似的用词组做识别吗?

    8 条回复    2020-08-25 17:17:26 +08:00
    TimePPT
        1
    TimePPT  
    PRO
       2020-08-20 13:03:16 +08:00   1
    典型的多分类问题,规则的话精度有保障,但召回成问题。
    如果有标签数据,可以试试 fasttext 这种开箱即用的库。
    yzc27
        2
    yzc27  
       2020-08-20 13:05:11 +08:00 via iPhone
    用 fasttext 这种低成本、开箱即用的库试试先呗
    staticor
        3
    staticor  
       2020-08-20 13:51:52 +08:00
    感觉还蛮有难度的 目前就像这个描述 也存在不同医师给出不同的定级结果。

    http://www.fyxzz.cn/fileup/HTML/FYXZZ201603012.html
    Escapist367
        4
    Escapist367  
       2020-08-24 12:01:21 +08:00
    这就是文本分类问题啊
    几万的案例数据量也够

    有标签的话可以:
    1 、先拿个 fasttext 看看效果怎么样
    2 、有显卡的话可以深度学习,比如用 bert 跑,效果肯定比 fasttext 好

    没标签的话:
    1 、几万条也不多,找几个人一起标
    2 、老老实实写规则吧
    wolfzz
        5
    wolfzz  
    OP
       2020-08-25 12:28:41 +08:00
    wolfzz
        6
    wolfzz  
    OP
       2020-08-25 12:28:56 +08:00
    @staticor 是的 这是个问题
    wolfzz
        7
    wolfzz  
    OP
       2020-08-25 13:11:39 +08:00
    @Escapist367 问下 写规则 有没有好的办法来表示规则?
    Escapist367
        8
    Escapist367  
       2020-08-25 17:17:26 +08:00
    @wolfzz

    没有吧,规则肯定会越写越复杂,然后规则的极致就是各种机器学习= =
    所以可能人工标注后去跑模型是最好的选择
    把写规则死掉的脑细胞用掉的时间拿去学模型和标数据,问题已经解决了 [血的教训]
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1092 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 17:28 PVG 01:28 LAX 10:28 JFK 13:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86