求 NAS 照片去重方案 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要把任何和邀请码有关的内容发到 NAS 节点。

邀请码相关的内容请使用 /go/in 节点。

如果没有发送到 /go/in,那么会被移动到 /go/pointless 同时账号会被降权。如果持续触发这样的移动,会导致账号被禁用。
luckjoe680
V2EX    NAS

求 NAS 照片去重方案

  •  
  •   luckjoe680 2023-03-15 14:20:52 +08:00 via Android 6952 次点击
    这是一个创建于 986 天前的主题,其中的信息可已经有所发展或是发生改变。
    大佬们 有没有用起来不错的 nas 照片跟视频的去重方案呀 有很多重复的备份照片 很头疼 求分享
    24 条回复    2023-03-16 15:29:35 +08:00
    stevenbipt
        1
    stevenbipt  
       2023-03-15 14:33:46 +08:00
    如果是文件相同写个脚本跑一下文件的 hash 应该就能找出来了,如果是文件不同比如分辨率不同这种图片找 cv 库看看有没有什么对比算法,视频的话感觉够呛,可以考虑一下视频的特征这些是否相同来匹配一下
    coderluan
        2
    coderluan  
       2023-03-15 14:39:02 +08:00
    把磁盘挂载到 Windows 下面,然后随便找个去重软件跑一下,Duplicate File Finder 之类的
    yfugibr
        3
    yfugibr  
       2023-03-15 14:40:38 +08:00 via Android
    hello365
        4
    hello365  
       2023-03-15 14:45:03 +08:00
    我前几个月清理重复照片用的 Duplicate Cleaner Pro 5 ,感觉清理规则很丰富,买的授权,网上也有破解版的,别的软件没对比过。
    shunia
        5
    shunia  
       2023-03-15 15:27:19 +08:00
    @yfugibr #3 这个 repo 一直在更新,但是完全没发版是为啥,必须自己编译?
    shunia
        6
    shunia  
       2023-03-15 15:27:41 +08:00
    楼主的需求很有市场,期待一个靠谱的回复。
    shunia
        7
    shunia  
       2023-03-15 15:30:33 +08:00
    @stevenbipt #1 就你说的第一句话要做成一个实际可用的版本就需要操心很多事情啊。性能,可靠性,备份等等。
    总不会说干着干着程序挂了图片被整没了吧?
    windirt
        8
    windirt  
       2023-03-15 15:33:51 +08:00   2
    群晖 NAS ,自带的存储空间分析器
    创建一个报告,潜在的重复文件打勾,指定检索的文件夹,忽略文件名,修改时间,会按照 md5 对比,然后执行报告,就在后台慢慢整理了,整理完就会有一个表格,自己按表格处理吧
    santom
        9
    santom  
       2023-03-15 16:07:21 +08:00
    我威联通用的 Fdupes
    https://www.qnapclub.eu/en/qpkg/418
    aircargo
        10
    aircargo  
       2023-03-15 16:09:03 +08:00
    前几年还有自动分析对比的功能,现在新版本貌似都没了。
    FightPig
        11
    FightPig  
       2023-03-15 16:09:30 +08:00
    我用的绿联的,好像自带了
    taikobo
        12
    taikobo  
       2023-03-15 16:11:57 +08:00   1
    推荐 dupeguru
    LeeReamond
        13
    LeeReamond  
       2023-03-15 16:19:35 +08:00
    自己写一个去重感觉比较靠谱,之前测试过开源的照片方案感觉都不太行,遑论去重组件了
    yfugibr
        14
    yfugibr  
       2023-03-15 16:41:15 +08:00 via Android
    @shunia #5 不太清楚,我用的还是 2020 年的那个版本,也没遇到啥问题
    bao3
        15
    bao3  
       2023-03-15 16:41:48 +08:00
    群晖的话有自动去重。楼上有人写了
    virlaser
        16
    virlaser  
       2023-03-15 16:54:09 +08:00
    把目录挂到电脑上用 duplicate cleaner 扫
    可以根据相似度对比照片
    可以根据一定时间窗口内的视频关键帧对比视频
    GeekSuPro
        17
    GeekSuPro  
       2023-03-15 17:06:35 +08:00
    极空间自带重复文件照片去重
    gumuxi
        18
    gumuxi  
       2023-03-15 17:27:05 +08:00
    我也有这个需求,NAS 是 OMV 系统的,插个眼,没有合适的我得空自己开发一个。
    dolorain
        19
    dolorain  
       2023-03-15 17:33:00 +08:00   1
    自己写个脚本跑 hash 一撞就行了呀,以下是代码:

    #!/bin/bash

    # 指定需要检查的目录路径
    dir_path="/path/to/directory"

    # 切换到目录
    cd $dir_path

    # 循环遍历目录下的所有文件
    for file1 in *; do

    # 如果当前文件不是图片文件,则跳过检查
    if ! [[ $(file "$file1") =~ "image" ]]; then
    continue
    fi

    # 计算当前文件的哈希值
    hash1=$(md5sum "$file1" | awk '{ print $1 }')

    # 遍历当前文件之后的所有文件,寻找是否存在哈希值相同的图片
    for file2 in $(ls $file1 ../*); do

    # 如果当前文件不是图片文件或与自身重复,则跳过检查
    if [ "$file1" = "$file2" ] || ! [[ $(file "$file2") =~ "image" ]]; then
    continue
    fi

    # 计算当前文件的哈希值
    hash2=$(md5sum "$file2" | awk '{ print $1 }')

    # 如果哈希值相同,则判定为重复图片,删除其中一张图片
    if [ "$hash1" = "$hash2" ]; then
    echo "Duplicate image found: $file1 and $file2. Deleting $file2"
    rm -f "$file2"
    fi

    done

    done

    echo "老子处理完了."
    anubu
        20
    anubu  
       2023-03-15 18:03:23 +08:00
    md5 太粗暴了,好久之前用 python 写过一段算海明距离的图片去重脚本,网上搜搜应该有很多,简单的去重也够用了。
    Al0rid4l
        21
    Al0rid4l  
       2023-03-15 23:21:34 +08:00
    czkawka+脚本?
    ALLROBOT
        22
    ALLROBOT  
       2023-03-16 09:22:26 +08:00 via Android
    4 楼说过了,Duplicate Cleaner 软件自带的模糊识别,对于大小名字不一致,相似的图片能成功识别
    对于整理归档帮助较大,就是识别大量文件比较慢
    yfugibr
        23
    yfugibr  
       2023-03-16 11:06:44 +08:00 via Android   1
    @shunia #5 刚说到这个就更新了,凌晨发新版了
    xuanzc880
        24
    xuanzc880  
       2023-03-16 15:29:35 +08:00
    你说的重复指的是哪种程度的重复?照片文件一模一样连 hash 都一样,还是说 hash 不一样,但是拍得内容大致相同?
    第一种的话如果你用的是群晖,而且还是 BTRFS 的文件系统,可以用 duperemove 这个软件来利用 BTRFS 自身的去重功能.
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3792 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 00:54 PVG 08:54 LAX 16:54 JFK 19:54
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86