
1 wc0517 2015 年 3 月 19 日 用到一定数量的新词以后别的就无所谓了,除非一些新出来的名词。 |
3 Daniel65536 2015 年 3 月 19 日 via iPad @anguslg 这就是选择rime必须的结果啊。 想要新词,就离不开各种云服务,自己破解输入法大厂的新词api这种邪路可不推荐。 |
4 lonelygo 2015 年 3 月 19 日 用Rime就要走自力更生维护词库的这条路啊。 或者 定期搞定各厂商词库,深蓝一下。 |
5 zhouzm 2015 年 3 月 19 日 不是能智能自动造词的吗 |
6 lotem 2015 年 3 月 19 日 不歪。 如果有插件,的同入,或叫做包造。有用意加嘛。 大意是:大家都往一上敲(有准入件地),你入,敲一新的候,也能直接命中。 前提:一通一定技手段保只上大家都在用的新;二能有效防止作弊和破的行。 |
9 lotem 2015 年 3 月 19 日 |
12 dofine 2015 年 3 月 19 日 关注一下~ 作者本尊现身了 O(∩_∩)O |
14 lonelygo 2015 年 3 月 19 日 @lotem 隐私问题,代码是开源的,应该问题可以解决。需要考虑的是: P2P“众筹”的方式组织词库,那么肯定有些辞汇是不愿意上传的,如何处理哪些辞汇愿意共享,哪些不愿意的问题; |
16 Daniel65536 2015 年 3 月 19 日 via iPad @lotem 一个简单的算法是这样的: 目标词汇:“密码” 我们公开这个词的md5:A8105204604A0B11E916F3879AAE3B0B……数值A 我们再重新另外计算这个词的utf8编码:\u5BC6\u7801 十六进制转化为二进制:0100 1110 1111 0110 0111 1000 0000 0001……数值X 把这个数值和一个随机的二进制数进行与运算:比如1111 1111 1111 1111 0000 0000 0000 0000 这样,我们就获得了0100 1110 1111 0110 0000 0000 0000 0000……数值B 把这个数据也公布出去。 现在,服务器收集所有A值是A8105204604A0B11E916F3879AAE3B0B的B,并且对这些B1、B2、B3进行或运算。当我们收集到足够的B之后,它们进行或运算就能获得最初的数值X,这个X所对应的“密码”一词的md5正好是A。 这样,我们就可以把“密码”这个词公开了。 |
17 lotem 2015 年 3 月 19 日 一例子(P2P): 某用甲有: --- 我好 => 44a53c6 我好衰 => d1cfd7f 一段: --- 44a53c6 × 100 users .... d1cfd7f × 1 user .... 於是 44a53c6 是可以的解密的新的摘要。 44a53c6 × 100 users 信息在用乙同步下了,用乙的入法用典有某的摘要是 44a53c6,遂解密(的一部分bits,以求保,防止摘要突)。分享出去的是: --- 戈女* 44a53c6 × 101 .... d1cfd7f × 1 .... 久遇不到新用的 d1cfd7f,可以考在某去。 最流下去的是: --- 我最 × N 多 .... |
18 Daniel65536 2015 年 3 月 19 日 via iPad @lotem 一:我们公布了md5和部分的utf8码,这些数据是无法反过来快速推算原文字的。 二:只有收集某个特定词汇的足够数量的utf8碎片,我们才能推算出这个utf8码到底是什么。 唯一的问题是我们没有办法防御恶意spam,恶意用户可以大量提交随意生成的B值,导致其他用户再多也不能推算出正确的X值来。 另外,真正的算法中需要用sha256来当hash,也许要用utf16来代替utf8。 |
19 lotem 2015 年 3 月 19 日 |
20 Daniel65536 2015 年 3 月 19 日 via iPad @lotem 用户可以自己设定自己的分享百分比,也就是一次会分享出去百分之多少的bit到服务器上,如果使用云词库,最少需要分享3.125%。 “密码”有32个bits,假设用户分享3个bits(10%),运气最好的情况下8个用户分享特定位置的8*3=24个bits就能够解密了,也就是说至少8个用户都输入了一个字典中不存在的新词“密码”时,这个词才会被当成新词被发布。 |
21 zhouzm 2015 年 3 月 19 日 不需要考虑解密的问题,只要判定某个md5或sha256达到热词标准,加入云端可上传列表,哪个用户优先更新到这个sha256,同时本机又存在这个热词,自动上传即可,当然也可以设一个开关,让用户决定上不上传。 |
22 shyangs 2015 年 3 月 20 日 @lotem 方法有漏洞。 要 100不同使用者,避免刷分,那每使用者都要有立的ID. 因如果有立ID的,我刷就直接定一大字就是。如果ID是生成 而非算硬定的,我就一直安反安刷ID. 既然有固定ID,我就加入P2P路,每天就在路中收集 己解密的新、未解密的新hash、和使用者id. 一天,收集到新的解密的新,算新的hash, 比前一天和hash定的使用者id, 那我不就知道新哪些使用者id打。 -------- 而 Daniel65536 算、或算的算法,可以不使用者id,但也法防意spam. |
23 dearrrfish 2015 年 3 月 20 日 @shyangs 与硬件绑定的UID如何进行配置云同步? |
24 shyangs 2015 年 3 月 20 日 @lotem Rime 的用就有,也被吐槽不如搜狗好用吧。 加活性、配置性 些 Rime 的固有,比如提供插件系。第三方者插件。 比如,慕搜狗/百度/QQ的,就插件,插件每天下,下完自固典,到指定的方案上。 也不是只能入法大,插件者也可以架一Server,爬每天爬微博搜榜,插件Server下新的微博,自自。 Rime 官方想提供,一可以透插件。有人不想上的(比如:自己和朋友的姓名),可以直接修改插件,弄一黑名。 降低插件,可以考言使用流行的本言。 |
25 lotem 2015 年 3 月 20 日 @shyangs 事上,我有一了一半的目 lotem/rimekit ,是一分 Rime 配置的工具,把入方案、配色方案、各定用 Javascript/Coffeescript 本成「配方」,在 rimekit 列表示,用勾即可完成配置。功能不需要在入程中即用,所以不必做成插件,以保持入法本身可靠。 |
26 anguslg OP |
28 leopku 2018 年 11 月 21 日 |