社工库的想法 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
fange01
V2EX    程序员

社工库的想法

  •  
  •   fange01 2014-04-20 11:43:16 +08:00 18445 次点击
    这是一个创建于 4193 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网站可以公开下载的网站泄露的数据库大约有200G。
    把这些数据库整理一下,做个社工库,防止被骗子诈骗是个不错的思路。
    偶尔搞搞营销也可以。
    这些库各种各样,后缀也挺多txt、mdb、sql甚至excel
    问题
    1.一般个人使用采用什么样的架构搭建
    看到比较多的是php+mysql,数据库都导入到mysql重新建立索引
    网上也有几个开源的go语言
    还有泄露的社工查询网站 搜云的源码和库结构
    也有把所有库存放在某个文件夹,通过软件来检索,我想是类似notepad++或者UE这种吧
    求推荐,个人使用该如何选择?

    2.是个人电脑运行,还是搞个二手服务器放在家里,还是vps

    著名的md5查询网站xmd5,汪利辉说自己的服务器是放在家里。
    当然我做这个不想公开只是方便自己使用。
    数据搞好了放在移动硬盘需要的时候跑一下,靠谱不?

    3.整理数据
    大量数据库去重,合并,导入,是否有好的思路或者教程

    4.现在常用密码都已经被泄露,是否有一种新的机制来代替现有的密码策略。
    比如1password之类,大家有什么好的想法?
    22 条回复    2014-12-27 21:20:52 +08:00
    Suanlatang
        1
    Suanlatang  
       2014-04-20 11:50:57 +08:00
    记得以前有这么个网站。。由于数据查询量太大。。关了。。
    xAI
        2
    xAI  
       2014-04-20 12:11:09 +08:00
    这些数据的整理是一个非常耗时的工作。
    vibbow
        3
    vibbow  
       2014-04-20 12:30:29 +08:00   1
    全存成文本文档,可以用我的这个脚本全文搜索。
    https://gist.github.com/vibbow/8569991
    Cyrils
        4
    Cyrils  
       2014-04-20 12:37:30 +08:00
    如果是公开的话。纯粹是造轮子了。。太多了。。。
    hacri
        5
    hacri  
       2014-04-20 12:38:54 +08:00
    简单的mysql扛不住吧,而且索引检索部分肯定得单独做。试试nosql?
    v223344
        6
    v223344  
       2014-04-20 12:48:25 +08:00
    密码数据方便分享下吗
    fange01
        7
    fange01  
    OP
       2014-04-20 13:27:44 +08:00
    @Suanlatang 现在也有很多。
    fange01
        8
    fange01  
    OP
       2014-04-20 13:48:46 +08:00
    @vibbow 感谢分享。晚上试试。
    fange01
        9
    fange01  
    OP
       2014-04-20 13:49:41 +08:00
    @hacri 嗯,就是想多咨询下大家的一件。
    manoon
        10
    manoon  
       2014-04-20 21:21:32 +08:00
    无聊的时候把那些数据转成MONGODB了。。。以为比其它数据库要轻松很多,结果,呵呵。
    a3587556
        11
    a3587556  
       2014-04-21 01:05:54 +08:00 via iPhone
    试试Sphinx
    7gong
        12
    7gong  
       2014-04-21 08:44:52 +08:00 via Android
    @manoon 详细说说,我正准备这么干呢,哪个环节出问题了
    duoxing
        13
    duoxing  
       2014-04-21 10:11:04 +08:00
    @fange01 比如哪里还有?
    isaced
        14
    isaced  
       2014-04-22 09:02:18 +08:00
    Mongodb可能会很合适。
    Zuckonit
        15
    Zuckonit  
       2014-04-22 10:44:47 +08:00
    @vibbow 可否分享下密码数据, thanks
    vibbow
        16
    vibbow  
       2014-04-22 11:55:50 +08:00
    @Zuckonit 现在就留了一个csdn的,平常当模拟数据来源用。
    qq2511296
        17
    qq2511296  
       2014-04-22 14:18:39 +08:00
    594sgk.com 你是说这个网站麽?
    a2z
        18
    a2z  
       2014-04-22 20:01:51 +08:00
    很多人用elasticsearch,用solr的也不少
    the13matrix
        19
    the13matrix  
       2014-04-22 23:27:43 +08:00
    php+mysql,上亿条数据,查询时等同于卡死好么。
    整理好的社工库以文本方式存储。自己写查询脚本:需要查询的时候,先把整个文件载入内存,以后就在内存里查找。速度比sql语句快10倍不止。

    另外,别想拿社工库用做合法用途。拿别人网站的数据用做自己产品,这永远都是不合情不合理不合法的。
    manoon
        20
    manoon  
       2014-04-24 21:51:57 +08:00
    @7gong 但也不是出问题。就是性能上面,没有想象的那么NB。
    导数据,花了很长时间。查询的效率也不是非常的快------可能跟机器配置也有关系。
    johnnyR
        21
    johnnyR  
       2014-06-29 17:18:28 +08:00
    @fange01 你的运行正常吗?我也来本地搭建一下
    johnnyR
        22
    johnnyR  
       2014-12-27 21:20:52 +08:00 via Android
    @a2z 请问你会配置吗?我的系统是ubuntu 搞了很久都不行
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2820 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 13:32 PVG 21:32 LAX 06:32 JFK 09:32
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86