可能污染了某个国内公司的 AI 语料库? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiyuesaves

可能污染了某个国内公司的 AI 语料库?

  •  
  •   xiyuesaves 2025 年 10 月 17 日 1658 次点击
    这是一个创建于 189 天前的主题,其中的信息可能已经有所发展或是发生改变。

    开头先声明一下,我只是个菜鸡前端,服务器环境是用宝塔搭建的,后台是 php 写的,公司规模超级小没有专业运维

    最近发现公司的一台服务器访问量暴增了几个数量级。那台服务器上放的是公司的官网,上面发布的内容都是些增加 SEO 的没有任何营养的东西,按理说不该有这么大的流量。

    查了下日志,所有请求都在访问同一个页面,而且全部来自 8.160.0.0/16 这个属于阿里巴巴的 IP 段。推测可能是某家公司部署的爬虫在抓取训练语料之类的。它的请求 UA 也不是搜索引擎的蜘蛛,而是伪装成普通浏览器: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 。

    目前这个页面已经被爬取了超过两千万次。检查后发现,问题出在插入关键词的代码上,生成的超链接结构类似: 关键词<a href="&gt;关键词&lt;/a&gt;关&lt;a href=">关键词</a>。 dom 解析后,会把 href 里的内容拼接到当前 URL 后面访问。而偏偏这个官网使用的模板引擎会忽略 URL 中无效的路径,导致访问这个错误链接时依然会返回同一个页面,于是形成了无限递归访问。

    现在光是这个页面每天产生的日志就接近 30GB 。我现在已经拦截了所有来自这个 IP 段的访问,但是看防火墙还是有每秒几百次的请求,不知道这家公司什么时候才会发现

    1 条回复    2025-10-17 11:40:02 +08:00
    Solix
        1
    Solix  
       2025 年 10 月 17 日 via iPhone
    加上 waf 就完事了
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     891 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 31ms UTC 21:43 PVG 05:43 LAX 14:43 JFK 17:43
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86