需要一个在浏览器内本地运行的名称分类模型(100MB 内),输入一个或者多个关键词,猜测返回他们的共同属性,有没有好的建议? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
drymonfidelia
V2EX    程序员

需要一个在浏览器内本地运行的名称分类模型(100MB 内),输入一个或者多个关键词,猜测返回他们的共同属性,有没有好的建议?

  •  
  •   drymonfidelia 2024-05-27 04:18:58 +08:00 1529 次点击
    这是一个创建于 502 天前的主题,其中的信息可能已经有所发展或是发生改变。
    例如:

    app-main.html app-main.css => app-main, Webpages
    angry-birds.apk flippy-birds.apk => Games, Apk Packages
    facebook.ipa tiktok.apk => Social App Packages, Apps, Software
    foobar2000 vlc => Media Players, Software
    rclone foobar2000 => PC Software

    实际输入可能是各种各样奇怪的东西。必须浏览器内本地运行,不能上传到服务器。
    8 条回复    2024-05-27 15:56:44 +08:00
    BeijingBaby
        1
    BeijingBaby  
       2024-05-27 04:21:22 +08:00 via iPhone
    这不得自己训练?
    drymonfidelia
        2
    drymonfidelia  
    OP
       2024-05-27 04:35:40 +08:00
    实际输入可能是各种类型的奇怪东西,只是我只想到程序相关的例子,以下这些才是大多数:

    Queenie, Reba, Fiasco => TV shows
    Avatar, Star Wars => Films
    Hermes Epsom Constance 24 Black, Hermès Swift Kelly Retourne => Luxury Handbag, Hermes Bags
    Gochiusa, Wataten => JP Anime, JP TV shows

    如果用字典肯定放不下。最好能有现成的 AI 模型能猜测这个词大概率是影片的名字来实现。
    drymonfidelia
        3
    drymonfidelia  
    OP
       2024-05-27 04:44:22 +08:00
    强调三遍浏览器内本地运行了,应该不会还有人扯 GPT 那些大模型了吧
    dayeye2006199
        4
    dayeye2006199  
       2024-05-27 06:22:33 +08:00
    分类的规则你可以清楚的定义吗?人看了你的定义之后可以清楚的得到答案吗?
    你有标注数据吗?

    如果上面都 yes ,那自己搞个模型,输出到 tensorflow.js 这种不难。

    上面都是 no ,建议还是老老实实 GPT
    murmur
        5
    murmur  
       2024-05-27 08:08:16 +08:00   1
    关键词匹配不就完了

    这东西没法训练吧

    facebook 又不是 face (美颜)也不是 book (书籍)

    foobar 也不是 bar (工具栏)

    只有长内容,能提取出关键字的,才有分类和聚类的必要

    单词或者简单词组只能做关键字匹配
    godqueue
        6
    godqueue  
       2024-05-27 10:11:40 +08:00
    如果是生产就老实的用 gpt 吧。。或者其他大模型也可以。。但是大模型有幻觉,输出的内容很可能第一次和第 2 次的内容不一样。。。这个问题好像没有太好的手段。。
    godqueue
        7
    godqueue  
       2024-05-27 10:12:04 +08:00
    如果需要非常精确,那好像只能自己写字典来做这个事情。。
    forty
        8
    forty  
       2024-05-27 15:56:44 +08:00
    浏览器内本地运行,那么不可能存储太大的模型数据吧。
    不能上传到服务器,和浏览器内本地运行,还是略有区别的,可以在本地启动服务,供浏览器调用,这样不算纯浏览器内运行,但是没有发送到服务器。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     969 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 18:58 PVG 02:58 LAX 11:58 JFK 14:58
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86