
1 kingxsp 2013 年 6 月 10 日 推荐pybloomfiltermmap库。 |
2 binux 2013 年 6 月 10 日 import hashlib hash = hashlib.md5 bloom = 0 def check(str): global bloom str_hash = hash(str) if bloom & int(str_hash.hexdigest(), 16) == 256 ** str_hash.digest_size: return True bloom |= int(str_hash.hexdigest(), 16) return False |
4 C0VN 2013 年 6 月 11 日 过滤重复url 这样行不行? list( set( urls ) ) |