大佬们,来寻求个方案,对比查询怎么才能最快 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
V392920
V2EX    程序员

大佬们,来寻求个方案,对比查询怎么才能最快

  • &nsp;
  •   V392920 2024-09-04 09:49:54 +08:00 2357 次点击
    这是一个创建于 433 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有这样一个需求,首先是有 100 万个 md5 值(不重复,提前录入)

    然后每隔 10 秒会产生 300 个新的 md5 值

    现在的要求是拿这 300 个去与 100 万个对比,查询出这 300 个里面哪些是包含在那 100 万个里面的,需要极致的速度,越快完成越好。

    之前同事用 redis 集合处理,据说好像是 30-40 毫秒(我不确定这个时间是否准确),依旧说还没达到要求,还能不能再极限一点

    对了,还有个要求,就是那 100 万个 md5 值,不能丢,需要持久化保存,系统重启之后依旧要在。

    求大佬们指点一下思路,主要是速度要快,快,快。

    先提前感谢各位大佬的思路。

    第 1 条附言    2024-09-04 14:39:28 +08:00
    确实是自己想复杂了,这个数量级确实不大,直接走内存怎么来都快,感谢大家指点
    20 条回复    2024-09-04 14:44:31 +08:00
    tool2dx
        1
    tool2dx  
       2024-09-04 10:06:35 +08:00
    md5 是 16 个字节,100 万也才 16,000,000 字节,约合 16M 内存。

    redis 已经很快了,再快怕只有手搓一个 hash 查找表了。
    sky497134710
        2
    sky497134710  
       2024-09-04 10:10:05 +08:00
    md5 -> 二进制 -> redis 位图
    MoYi123
        3
    MoYi123  
       2024-09-04 10:12:39 +08:00
    速度 30-40 毫秒的话, 我觉得很有可能是用 for 循环查了 300 次 redis, 或者是连 redis 的网络不行. 想个办法写成一句查询, 一次性返回 300 个结果.

    如果新 md5 大概率不在这 100 万个里面, 可以外面套一层 bloomfilter, 减少查询量.
    Kaiv2
        4
    Kaiv2  
       2024-09-04 10:14:58 +08:00
    直接预加载到机器内存中,消耗时间 0 毫秒
    sagaxu
        5
    sagaxu  
       2024-09-04 10:15:23 +08:00
    redis pipeline 了解一下
    aflow
        6
    aflow  
       2024-09-04 10:15:46 +08:00
    查询的时候和布隆过滤器组合使用,过滤下应该可以快不少
    sagaxu
        7
    sagaxu  
       2024-09-04 10:19:18 +08:00
    新版 redis 有 SMISMEMBER
    PTLin
        8
    PTLin  
       2024-09-04 10:23:10 +08:00
    那就加载到本机然后前缀树匹配不行吗,我试了下 6800h 单线程匹配也就 1 毫秒
    fruitmonster
        9
    fruitmonster  
       2024-09-04 10:26:59 +08:00
    布隆不行么?
    yagamil
        10
    yagamil  
       2024-09-04 10:40:14 +08:00
    我觉得 mysql 都够用了,索引+ in 语句
    bugmakerxs
        11
    bugmakerxs  
       2024-09-04 11:24:16 +08:00
    把数据加载到内存生成字典树。
    wxf666
        12
    wxf666  
       2024-09-04 11:52:47 +08:00
    就 16MB 内存数据,你直接用语言自带的 Hash / HashMap / Dict / Object / Unordered_map / Table ,不行吗?
    R4rvZ6agNVWr56V0
        13
    R4rvZ6agNVWr56V0  
       2024-09-04 11:55:44 +08:00
    30-40 毫秒 都不能满足要求? 那就只能自己撸数据结构了:使用 Bloom Filter + Bit Array 组合 ,用 C/C++实现。还要考虑利用 SIMD 指令加速。
    sillydaddy
        14
    sillydaddy  
       2024-09-04 12:26:00 +08:00 via Android   1
    楼上都是看见问号就开始解题的,你这根本就是无效需求:10 秒才产生 300 个数据,只花 30 毫秒的处理时间还嫌慢,剩下的时间去睡觉吗?这种需求就像原本的目标是从北京到拉萨,却问怎么提高长跑速度。
    duosqs
        15
    duosqs  
       2024-09-04 13:45:22 +08:00
    可以结合归并排序的思路,只会扫一遍 100 万的数据。
    netnr
        16
    netnr  
       2024-09-04 13:57:49 +08:00
    用 JS 写了个例子,大概在 2 ms 完成匹配

    https://www.netnr.com/run/code/4824312705648666717
    RandomJoke
        17
    RandomJoke  
       2024-09-04 14:06:04 +08:00
    100w 的数据要是不变的,直接启动进内存 hashmap 就行了,布隆主要解决空间问题,你这要是不变的直接 hashmap
    lyxxxh2
        18
    lyxxxh2  
       2024-09-04 14:07:15 +08:00
    刚想说加载为内存变量,大家都是这么想的。
    otakustay
        19
    otakustay  
       2024-09-04 14:33:47 +08:00
    才 100 万个,1000 万以下我直接内存开 HashMap
    xuelu520
        20
    xuelu520  
       2024-09-04 14:44:31 +08:00
    redis pipeline 应该就行了,现在主要耗时在连接 redis 上。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1347 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 17:07 PVG 01:07 LAX 09:07 JFK 12:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86