百万级图像抓取去重存档技术方案 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
phpfpm

百万级图像抓取去重存档技术方案

  •  
  •   phpfpm 2020 年 4 月 29 日 1928 次点击
    这是一个创建于 2186 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前情提要:

    t/665885

    特别提醒,本文讨论的不是两张图片如何判断内容是否相似

    实现的目标

    抓取某论坛发布的主题和图片,根据图片特征判重标记。

    硬件

    云主机

    阿里云(2c2g)服务器一台:某些服务的管理的公网出口(rabbitmq, 路由器管理等),基本不使用

    阿里云 hk:proxy 出口

    vultr sg:proxy 出口

    物理机

    db: i5-5200u/8g/hdd: mysql, rabbitmq

    web:i5-4200u/8g/ssd: nginx/php/redis

    nas:N3150/16g/hdd*n: samba

    主要流程

    列表页-详情页-图片 item:触发抓取

    抓取:触发存储, 计算 md5 判重, 计算图片内容 hash

    存储-校验-标记完成

    计算 md5 判重-存储判重结果

    计算图片内容 hash-redis 建立索引-查找 hash 重复-计算内容判重-存储判重结果

    如何高效检索内容 hash 相近的图片

    算了一些 hash,考虑汉明距离<=3 以内的作为 hash 接近的图片。 对于 128bit 的 hash,分为 4 组,如果汉明距离<=3, 至少有一组是完全一致的。 因此,将图片的内容 hash 分为四段存入 redis,建立倒排索引。 比如 id=123,hash=aaaabbbbccccdddd, 算法是 average, 存储这么几个数据到 redis: sadd average:part1:aaaa => 123 sadd average:part1:bbbb => 123 sadd average:part1:cccc => 123 sadd average:part1:dddd => 123 这样下次搜索比如 aaaa000011112222 的判重的时候,就会命中 average:part1:aaaa 这个集合,从中取出 id 搜索对应的 hash 继续判重。 1M 量级的数据,四种 hash 算法,每种算法会分为 64k 个组,平均每个组 16 个 hash 那么对于一个新的图片需要判重 4 种 * 4 个分片 * 16 = 256 个 hash 比对 结合 redis 的读取时间,能压缩到几秒钟以内了。 存量数据花了三四天清洗完了,增量准实时。 

    剩下的结合索引优化等,继续提升效率。

    7 条回复    2020-05-03 23:30:37 +08:00
    wysnylc
        1
    wysnylc  
       2020 年 4 月 29 日
    还是折腾 hash
    rrfeng
        2
    rrfeng  
       2020 年 4 月 29 日
    请问『内容 hash 相近』有什么意义?
    fancy111
        3
    fancy111  
       2020 年 4 月 29 日
    hash 相近==图片相近???
    你不如搞图像识别去重,还说得过去一点。
    imn1
        4
    imn1  
       2020 年 4 月 29 日
    @rrfeng
    @fancy111
    LZ 说的“内容 hash”是 image hash 的简称,就是图像识别,不是传统意义的字节哈希,看他的上一帖
    rrfeng
        5
    rrfeng  
       2020 年 4 月 29 日
    还是简单提一下好……用『图像指纹』代替 hash 就不会歧义了。

    所以本质上就是 100w * 128bit 的记录如何快速查汉明距离最短,分组是个简单有效的方法,但感觉应该有更好的算法。
    phpfpm
        6
    phpfpm  
    OP
       2020 年 4 月 29 日
    @rrfeng 按照我现在的硬件这个查询效率我觉得差不多了,换一台好的服务器还能提高不少效率。
    更好的算法也得基于更好的硬件,比如显卡加入什么的,愿闻其详
    loadingimg
        7
    loadingimg  
       2020 年 5 月 3 日
    dhash 去重效果不错
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2880 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 43ms UTC 13:07 PVG 21:07 LAX 06:07 JFK 09:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86