大家是如何扩充鼠须管输入法的词库的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
anguslg
V2EX    macOS

大家是如何扩充鼠须管输入法的词库的?

  •  1
     
  •   anguslg 2015 年 3 月 19 日 6555 次点击
    这是一个创建于 4055 天前的主题,其中的信息可能已经有所发展或是发生改变。
    目前在用鼠须管输入法,各方面配置已经最贴近自己使用习惯了,唯一的不足是词库缺乏。

    之前使用的是搜狗,积累了不少个人词库,这些词库目前也都已经导入到了鼠须管词库,但是相比不断增长的新词,仍然感到力不从心手动输入肯定不现实,不知道各位是怎么积累词库的?
    28 条回复    2018-11-21 22:06:58 +08:00
    wc0517
        1
    wc0517  
       2015 年 3 月 19 日
    用到一定数量的新词以后别的就无所谓了,除非一些新出来的名词。
    anguslg
        2
    anguslg  
    OP
       2015 年 3 月 19 日
    @wc0517 行业原因,经常需要输入这些新词
    Daniel65536
        3
    Daniel65536  
       2015 年 3 月 19 日 via iPad
    @anguslg 这就是选择rime必须的结果啊。
    想要新词,就离不开各种云服务,自己破解输入法大厂的新词api这种邪路可不推荐。
    lonelygo
        4
    lonelygo  
       2015 年 3 月 19 日
    用Rime就要走自力更生维护词库的这条路啊。
    或者
    定期搞定各厂商词库,深蓝一下。
    zhouzm
        5
    zhouzm  
       2015 年 3 月 19 日
    不是能智能自动造词的吗
    lotem
        6
    lotem  
       2015 年 3 月 19 日   1
    不歪。
    如果有插件,的同入,或叫做包造。有用意加嘛。
    大意是:大家都往一上敲(有准入件地),你入,敲一新的候,也能直接命中。
    前提:一通一定技手段保只上大家都在用的新;二能有效防止作弊和破的行。
    anguslg
        7
    anguslg  
    OP
       2015 年 3 月 19 日
    @zhouzm 但是一些新词还是不能一击命中
    anguslg
        8
    anguslg  
    OP
       2015 年 3 月 19 日
    @lotem 大部分使用鼠须管的用户,也都是因为之前爆出来的的搜狗收集隐私问题吧。如果有这个插件,如何保证别人能相信你?这个问题才是关键
    lotem
        9
    lotem  
       2015 年 3 月 19 日
    @anguslg 如果源插件的代,有助吧。

    思路是:本地用新生成摘要上、服器下已挖到的新;服器用摘要作,挖到有度的新後,再用那索取原文。懂行的朋友思路可行否。
    anguslg
        10
    anguslg  
    OP
       2015 年 3 月 19 日
    @lotem 不知道p2p的思想是否可行
    lotem
        11
    lotem  
       2015 年 3 月 19 日
    @anguslg 有意思。值得研究。

    我又想到。於拼音用,未命中「手入」主意怎?
    dofine
        12
    dofine  
       2015 年 3 月 19 日
    关注一下~ 作者本尊现身了 O(∩_∩)O
    anguslg
        13
    anguslg  
    OP
       2015 年 3 月 19 日
    @lotem 我就想能更新新词就好了
    lonelygo
        14
    lonelygo  
       2015 年 3 月 19 日
    @lotem 隐私问题,代码是开源的,应该问题可以解决。需要考虑的是:
    P2P“众筹”的方式组织词库,那么肯定有些辞汇是不愿意上传的,如何处理哪些辞汇愿意共享,哪些不愿意的问题;
    lotem
        15
    lotem  
       2015 年 3 月 19 日
    @lonelygo 所以有要:一是保共享出去的新摘要法解原文;二是格在足已明新已泛使用「解密」其原文。
    Daniel65536
        16
    Daniel65536  
       2015 年 3 月 19 日 via iPad   1
    @lotem 一个简单的算法是这样的:
    目标词汇:“密码”
    我们公开这个词的md5:A8105204604A0B11E916F3879AAE3B0B……数值A

    我们再重新另外计算这个词的utf8编码:\u5BC6\u7801
    十六进制转化为二进制:0100 1110 1111 0110 0111 1000 0000 0001……数值X
    把这个数值和一个随机的二进制数进行与运算:比如1111 1111 1111 1111 0000 0000 0000 0000
    这样,我们就获得了0100 1110 1111 0110 0000 0000 0000 0000……数值B
    把这个数据也公布出去。

    现在,服务器收集所有A值是A8105204604A0B11E916F3879AAE3B0B的B,并且对这些B1、B2、B3进行或运算。当我们收集到足够的B之后,它们进行或运算就能获得最初的数值X,这个X所对应的“密码”一词的md5正好是A。
    这样,我们就可以把“密码”这个词公开了。
    lotem
        17
    lotem  
       2015 年 3 月 19 日
    一例子(P2P):

    某用甲有:
    ---
    我好 => 44a53c6
    我好衰 => d1cfd7f

    一段:
    ---
    44a53c6 × 100 users
    ....
    d1cfd7f × 1 user
    ....

    於是 44a53c6 是可以的解密的新的摘要。
    44a53c6 × 100 users
    信息在用乙同步下了,用乙的入法用典有某的摘要是 44a53c6,遂解密(的一部分bits,以求保,防止摘要突)。分享出去的是:
    ---
    戈女* 44a53c6 × 101
    ....
    d1cfd7f × 1
    ....

    久遇不到新用的 d1cfd7f,可以考在某去。

    最流下去的是:
    ---
    我最 × N 多
    ....
    Daniel65536
        18
    Daniel65536  
       2015 年 3 月 19 日 via iPad
    @lotem
    一:我们公布了md5和部分的utf8码,这些数据是无法反过来快速推算原文字的。
    二:只有收集某个特定词汇的足够数量的utf8碎片,我们才能推算出这个utf8码到底是什么。

    唯一的问题是我们没有办法防御恶意spam,恶意用户可以大量提交随意生成的B值,导致其他用户再多也不能推算出正确的X值来。

    另外,真正的算法中需要用sha256来当hash,也许要用utf16来代替utf8。
    lotem
        19
    lotem  
       2015 年 3 月 19 日
    @Daniel65536 法好。

    生成摘要的算法一定要,因可被截,所以要默他是所有人可的。
    Daniel65536
        20
    Daniel65536  
       2015 年 3 月 19 日 via iPad
    @lotem 用户可以自己设定自己的分享百分比,也就是一次会分享出去百分之多少的bit到服务器上,如果使用云词库,最少需要分享3.125%。

    “密码”有32个bits,假设用户分享3个bits(10%),运气最好的情况下8个用户分享特定位置的8*3=24个bits就能够解密了,也就是说至少8个用户都输入了一个字典中不存在的新词“密码”时,这个词才会被当成新词被发布。
    zhouzm
        21
    zhouzm  
       2015 年 3 月 19 日
    不需要考虑解密的问题,只要判定某个md5或sha256达到热词标准,加入云端可上传列表,哪个用户优先更新到这个sha256,同时本机又存在这个热词,自动上传即可,当然也可以设一个开关,让用户决定上不上传。
    shyangs
        22
    shyangs  
       2015 年 3 月 20 日
    @lotem
    方法有漏洞。

    要 100不同使用者,避免刷分,那每使用者都要有立的ID. 因如果有立ID的,我刷就直接定一大字就是。如果ID是生成 而非算硬定的,我就一直安反安刷ID.

    既然有固定ID,我就加入P2P路,每天就在路中收集 己解密的新、未解密的新hash、和使用者id.

    一天,收集到新的解密的新,算新的hash, 比前一天和hash定的使用者id, 那我不就知道新哪些使用者id打。

    --------

    而 Daniel65536 算、或算的算法,可以不使用者id,但也法防意spam.
    dearrrfish
        23
    dearrrfish  
       2015 年 3 月 20 日
    @shyangs
    与硬件绑定的UID如何进行配置云同步?
    shyangs
        24
    shyangs  
       2015 年 3 月 20 日
    @lotem
    Rime 的用就有,也被吐槽不如搜狗好用吧。

    加活性、配置性 些 Rime 的固有,比如提供插件系。第三方者插件。

    比如,慕搜狗/百度/QQ的,就插件,插件每天下,下完自固典,到指定的方案上。
    也不是只能入法大,插件者也可以架一Server,爬每天爬微博搜榜,插件Server下新的微博,自自。
    Rime 官方想提供,一可以透插件。有人不想上的(比如:自己和朋友的姓名),可以直接修改插件,弄一黑名。

    降低插件,可以考言使用流行的本言。
    lotem
        25
    lotem  
       2015 年 3 月 20 日   2
    @shyangs 事上,我有一了一半的目 lotem/rimekit ,是一分 Rime 配置的工具,把入方案、配色方案、各定用 Javascript/Coffeescript 本成「配方」,在 rimekit 列表示,用勾即可完成配置。功能不需要在入程中即用,所以不必做成插件,以保持入法本身可靠。
    anguslg
        26
    anguslg  
    OP
       2015 年 3 月 20 日
    @lotem 不知道搜狗的这个对词库有没有帮助
    http://www.sogou.com/labs/dl/w.html
    jprovim
        27
    jprovim  
       2015 年 3 月 23 日
    @lotem

    直接一github repo每更新, 需要的直接下即可.
    不用支持自update, 不然就跟其他的入法有了.
    leopku
        28
    leopku  
       2018 年 11 月 21 日
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     845 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 82ms UTC 20:39 PVG 04:39 LAX 13:39 JFK 16:39
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86