一个收集网上垃圾网站的 Github repo 。。。。 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Feiox
V2EX    程序员

一个收集网上垃圾网站的 Github repo 。。。。

  •  
  •   Feiox
    feiox 2015-11-19 11:27:31 +08:00 6902 次点击
    这是一个创建于 3668 天前的主题,其中的信息可能已经有所发展或是发生改变。

    转一下 README.md 懒得再打一遍了。

    互联网垃圾网站列表 Github repo

    这里是收集到的互联网上的垃圾网站列表。

    使用

    您可以这样利用它:
    * Chrome :您可以将它导入到 Chrome 的 Personal Blocklist 插件中,用以屏蔽 Google 搜索结果中的垃圾网站。
    * Firefox :我并不是一个 FF 用户,希望您能帮助我找到这类插件

    对垃圾网站的定义

    P.S. 并不完整,欢迎补充

    19 条回复    2016-12-27 16:15:45 +08:00
    chinvo
        1
    chinvo  
       2015-11-19 11:33:37 +08:00
    kafan 这么流氓怎么能不上榜,已 pr
    coolcfan
        2
    coolcfan  
       2015-11-19 11:35:13 +08:00
    @chinvo 可能因为毕竟还是有有一定质量的 UGC 在上面……
    Sequencer
        3
    Sequencer  
       2015-11-19 11:39:00 +08:00 via iPhone
    如何 duckduckgo 可以有这种 block 插件就好了
    lizhenda
        4
    lizhenda  
       2015-11-19 11:42:07 +08:00
    这个不错哈~~
    caomu
        5
    caomu  
       2015-11-19 11:53:33 +08:00 via Android
    kafan 的 bbs 还是有用的,那个什么教程就可以屏蔽。
    hellokt
        6
    hellokt  
       2015-11-19 11:55:45 +08:00
    不得不回一条,kafan 垃圾的令人发指!不过滤这个的列表根本不是一个有效的列表.
    vivisidea
        7
    vivisidea  
       2015-11-19 11:57:26 +08:00
    操作略麻烦,还要安装 chrome 插件才能屏蔽,为什么 google 不设置一个云端的 personal blocklist 呢
    这样不管在哪台机器上,只要登陆了 google 账号,搜索结果自动帮我屏蔽掉
    skylancer
        8
    skylancer  
       2015-11-19 12:17:43 +08:00
    @vivisidea 曾经是有的,只不过你要问为什么 Google 要关了这功能
    Feiox
        9
    Feiox  
    OP
       2015-11-19 12:27:34 +08:00
    @Sequencer 自己开发一个 Chrome 插件呀 ~
    @caomu @hellokt @caomu 真的?这么严重?我看了一下,感觉并不是很,,,内容不至于全部是垃圾吧?(是不是那种抓别人网站的爬虫站呢?)不过已接受 pr
    imlonghao
        10
    imlonghao  
       2015-11-19 12:29:06 +08:00
    我曾经打算自己做这个列表,但是觉得有些网站我想 BLOCK ,但是他里面又有一点有用的东西,然后很纠结
    Licamla
        11
    Licamla  
       2015-11-19 12:31:59 +08:00   1
    firefox 有一个 block site 插件可以用,这个是我改的列表 http://pan.baidu.com/s/1jG2erxO
    或者直接用 adblock 也可以。
    Feiox
        12
    Feiox  
    OP
       2015-11-19 12:32:34 +08:00
    @imlonghao 对,有些博客被一些爬虫站抓取,但过一段时间该博客关闭了,这时候,这些爬虫站却变成“凑合能看也比没有强”的地方了。。。
    Sequencer
        13
    Sequencer  
       2015-11-19 13:12:55 +08:00
    @Feiox 如果搜索引擎官方支持就好了 因为 Chrome 内存吃的可怕 云也不方便 还是在用 Safari
    Slienc7
        14
    Slienc7  
       2015-11-19 15:24:58 +08:00
    https://goo.gl/jWoiR3
    我自己用的列表,只有垃圾搜索站。放在 Gist 上了。
    SparkMan
        15
    SparkMan  
       2015-11-19 16:00:30 +08:00
    我的网站被爬虫快搞死了 http://www.scooter-monocycle.com
    Feiox
        16
    Feiox  
    OP
       2015-11-19 16:27:09 +08:00
    @SparkMan 这是什么意思?
    @xgowex 谢了,我把它们加进了。

    除了中文,英文垃圾站的列表大家有没有、、、、、
    xjoker
        17
    xjoker  
       2015-11-20 14:11:33 +08:00
    so.vjiangyin.net

    也算是一个垃圾站
    Kuso
        18
    Kuso  
       2016-12-27 15:09:20 +08:00
    @Feiox
    谢谢你收集整理这个列表!
    现在还有 3 个误伤的网站:
    google.com
    imgur.com
    mafengwo.cn
    (原谅我没去 github 的 issues 里反馈)
    Kuso
        19
    Kuso  
       2016-12-27 16:15:45 +08:00
    @Feiox
    还发现这两个:
    lofter.com
    blog.sina.com.cn
    虽然存在滥用,有垃圾内容,但不完全是垃圾站。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5504 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 01:44 PVG 09:44 LAX 17:44 JFK 20:44
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86