
针对视频文件重去有哪些方案?
造福人类的事情的问题来了
大家没有有苦恼于日渐增多的视频文件,怎样可以有一个有效的方法查找出相同的视频文件?
MD5?
还是通过人肉?
说说你们的想法
1 MicrosoftAzure Oct 15, 2015 Everything 用通配符搜索视频文件后根据文件大小排序并手动删除重复项。 |
2 mogita Oct 15, 2015 |
3 imn1 Oct 15, 2015 严谨: hash 极简:字节 一般:字节+mediainfo 折中:字节+mediainfo+随机抽取相同位置的字节片段进行 hash |
4 huijiewei Oct 15, 2015 第一步先用 MD5 去除完全重复的文件, MD5 对文件的识别还是很保险的 第二步就可以用高大上的智能识别了。对准确率不放心的话,可以人工审核一下 |
5 my101du Oct 15, 2015 同需要。 例如 番号-号码-1080.mkv 和 [一堆日语].rmbp 可能是相同内容的视频文件(或者是截取的部分相同) 用大小、名称都是查不出来的…… 我觉得最佳的解决办法是大家约定固定使用一组压缩参数,使得同一个文件压缩出来,体积都是一样的,可以通过体积来判断。还有就是截取的话,文件名要把原来的视频名保留…… 是不是要求太高了 |
6 csx163 Oct 15, 2015 体积都是 5M 左右, webm 格式的怎么破 |
7 abelyao Oct 15, 2015 via iPhone |
8 imn1 Oct 15, 2015 @abelyao 呃,这个我只理解了文件去重,没理解为内容去重,至少 LZ 没说清 内容去重这个真没“智能”办法,即使截图,也很难 例如一个版本前面带有几秒版权,另一个没有,两者就会存在时间差 又如一个版本上了滤镜 A ,另一个用了滤镜 B ,两者即使时间同步,截图的差异也巨大 我没什么这个问题,因为 1.事前有版本选择,不清楚版本的忽略,避免浪费时间,除非稀有视频 2.时候有归档习惯,所以归档时基本也人肉去重了,因为无论 hash 或者图片比较,花费时间和 CPU 还不如我快进一遍简单 非个人使用,例如服务器,那就是另话 但这个又有另一个逻辑:不同版本就是不同劳动(或不同权利持有人),能随意清理吗? |
13 eirk2004 Oct 15, 2015 这样行不行? FFmpeg 抽取关键帧,然后把图像扔给 google 、 baidu 去提取关键词(并对关键词排序),供用户最终判定;如果完全无法匹配,尝试从关键帧中进行人脸识别,然后截取画面、重复前面一步。 精确的文件内容去重,感觉应用范围窄、实现成本高 |
15 cz5424 Sep 29, 2018 楼主采用了什么方案了? FFmpeg 抽取关键帧好像是一个比较好的方法 提取多个关键帧,视频去重就降级到了图片去重,使用图片去重的方法就可以搞了 目前我也在找更好的方案 |
16 jiqiren007 Oct 24, 2019 @cz5424 找到啥更好的方案了吗? |
17 cz5424 Oct 24, 2019 via iPhone @jiqiren007 没有继续跟下去了,目前问题不是很搭 |
18 wktop Apr 2, 2024 @jiqiren007 有继续跟进吗? |
19 ccxuy Oct 12, 2024 2024 年了, 有些网站已经能截图搜索视频了, 但是家用方案或者开源方案还是没有 |