好奇:像 CMD5 这样的网站的,数据是怎么存储的?如何快速索引 - V2EX
cat

好奇:像 CMD5 这样的网站的,数据是怎么存储的?如何快速索引

  •  
  •   cat Nov 25, 2024 1627 views
    This topic created in 549 days ago, the information mentioned may be changed or developed.
    这两天在做一个文件唯一性的工具,需要存文件的哈希值,就突然想到 CMD5 ,号称创建了 90 万亿条数据
    我们简单的设想为就是 “哈希值-明文” 这样的数据结构,是如何做到快速查找的呢
    7 replies    2024-11-25 16:28:17 +08:00
    yuzo555
        1
    yuzo555  
       Nov 25, 2024
    hash 简直是最理想的分区、分表存储的数据类型了
    长度固定,概率均匀...
    cat
        2
    cat  
    OP
       Nov 25, 2024
    @yuzo555 可是这么大的数据量,分表不会分出太多太多太多表吗
    rrfeng
        3
    rrfeng  
       Nov 25, 2024
    太多表有啥问题呢,又不用全查,按前缀分想分几级分几级
        4
    InternetExplorer  
       Nov 25, 2024
    直接用文件系统存,每级目录放 1000 个文件夹,只要 5 级目录,最终的目录里放对应的数据文件
    play78
        5
    play78  
       Nov 25, 2024
    哈希值是 16 进制的。 概率还是均匀的。
    常见的用字典树就可以了。代码逻辑还非常简单。
    时间复杂度是 O(16xN), 查找非常快。而且还不用全部加载到内存,理论上可以直接索引。
    唯一占用的就是磁盘存储。
    cat
        6
    cat  
    OP
       Nov 25, 2024
    @InternetExplorer @play78 我以为当磁盘文件达到一定数量级之后,也会拖慢速度,尤其是当有多个查询同时发生时,看来是我多虑了
    play78
        7
    play78  
       Nov 25, 2024
    @cat #6 文件系统确实有 inode 限制,一方面是数据只会新增,一方面数据量非常大。
    所以,要么是合并小文件,文件超出大小后就切分子目录。
    但是这个网站如果数据量真的非常大,我觉得应该是自己实现一个文件系统,裸系统,只处理文件。
    About     Help     Advertise     Blog     API     FAQ     Solana     3222 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 36ms UTC 13:11 PVG 21:11 LAX 06:11 JFK 09:11
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86