Semalt.com 用 AI 生成 1000 万+ 虚假页面骗搜索流量, V2EX 内容遭严重滥用 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bOOOOc
V2EX    信息安全

Semalt.com 用 AI 生成 1000 万+ 虚假页面骗搜索流量, V2EX 内容遭严重滥用

  •  4
     
  •   bOOOOc 20 小时 41 分钟前 782 次点击

    问题概述

    通过 Google 搜索追踪发现,Semalt.com 正在运营一个大规模的 AI 驱动 SEO 欺诈系统. 该系统爬取 V2EX 等技术社区的内容, 使用 AI 生成虚假标题和描述, 然后通过 URL 参数注入到数百个客户网站中, 以劫持搜索引擎流量。

    从 URL 中的序列号可以看出, 该系统已生成超过 1000 万个虚假页面.

    追踪数据

    • 2025-10-16: 识别号 1,226,522
    • 2025-11-16: 识别号 9,956,398
    • 2025-11-17: 识别号 10,070,497
    • 月增长: 870 万页
    • 生成速度: 日均 28 万页, 11 月加速到 40 万+ 页/天

    验证方法

    任何人都可以在 Google 搜索以下内容验证:

    inurl:"?s-news" inurl:"2025-11" "v2ex" inurl:"?s-news" inurl:"2025-10" "v2ex" 

    工作原理

    URL 模式

    https://[域名]/?s-news-[识别号]-[日期]-[AI 垃圾标题] 

    运作流程

    1. 爬取内容 - Semalt 大量爬取 V2EX 页面 (包括用户个人资料页面)

    2. AI 生成虚假新闻 - AI 被输入 V2EX 的页面信息, 被要求编写虚构的随机"新闻", 标题和描述尽可能吸引人. 例如:

      • "WangSD Discontinues Tech Engagement After V2EX Membership Termination"
      • "V2EX 用户 liuliancc 未能加入本站,未成为第 522760 号会员,时间早于 2020 年 12 月 7 日 20 时 37 分"
      • "Innovative Personal News Briefing System Proposed by V2EX Member FFM"
      • "V2EX Member Wang Shares Insights on MacBook Pro..."
    3. 参数注入 - 通过 URL query parameters 将生成的内容注入到客户网站

    4. 搜索引擎索引 - Google 索引这些页面, 将 AI 生成的欺骗性虚假标题和描述编入搜索结果

    5. 流量劫持 - 用户搜索 V2EX 相关内容时, 看到大量"神秘 V2EX 小新闻", 点击后被导向完全不相关的网站

    搜索结果截图

    Google 搜索 inurl:"?s-news" inurl:"2025-10" "v2ex"

    Google 搜索 inurl:"?s-news" inurl:"2025-10" "v2ex"

    Google 搜索 inurl:"?s-news" inurl:"2025-11" "v2ex"

    甚至搜索我自己的 V2EX 用户名 "bOOOOc" 时, 都能找到使用 Semalt SEO 欺诈手法的网站. Google 搜索我的 V2EX 用户名

    可以看到这些 AI 生成的虚假标题都含有 v2ex

    实际的例子

    以下是实际发现的虚假页面示例:

    例 1:地方新闻网站

    https://lufkindailynews.com/test/?s-news-7728932-2025-11-11-v2ex-userliuliancc... 
    • 标题声称: 报道 V2EX 用户 liuliancc 未能注册会员的"新闻"
    • 实际内容: 美国 Lufkin 地方新闻网站,与 V2EX 毫无关系
    • 虚构程度: 把注册失败的数据包装成新闻报道

    例 2:伊朗通讯社

    https://www.isna.ir/news/...?s-news-8218190-2025-11-12-member-of-v2ex-exploring... 
    • 标题声称: V2EX 会员在技术社区的贡献分析
    • 实际内容: 伊朗通讯社关于恐怖袭击的波斯语新闻
    • 欺骗性: URL 参数完全独立于页面实际内容

    例 3:哥伦比亚大学

    https://globalfreedomofexpression.columbia.edu/about/...?s-news-3135576... 
    • 标题声称: V2EX 用户技术交流分析
    • 实际内容: 哥伦比亚大学言论自由项目页面
    • 影响: 连大学网站也被利用

    受影响的域名(部分)

    初步发现涉及数百个域名,包括但不限于:

    新闻媒体:

    教育机构:

    商业网站:

    其他:

    这些网站是 Semalt 的付费客户,购买了其"autoSEO"或者"AIO Promotion"服务。 但这些客户可能:

    1. 完全知情并接受这种黑帽手段
    2. 不完全了解 Semalt 的具体操作方式,以为是正规 SEO
    3. 只关心流量数字,不在乎来源和方式

    AI 生成内容的展示

    1. 编造戏剧性事件

      • 把"用户注销账号"编成"被开除并停止技术讨论"
      • 例如:"WangSD Dismissed from V2EX and Discontinues Tech Engagement"
    2. 把数据记录包装成新闻

      • 将后台数据编成"独家报道"
      • 例如:"V2EX 用户 liuliancc 未能加入本站,未成为第 522760 号会员,时间早于 2020 年 12 月 7 日 20 时 37 分"
    3. 虚构创新提案

      • 从关键词中提取,编造不存在的"重大创新"
      • 例如:"Innovative Personal News Briefing System Proposed by V2EX Member FFM"
    4. 普通求助变专家见解

      • 把"救命,我的 MBP 坏了"包装成"资深用户专家分析"
      • 例如:"V2EX Member Wang Shares Insights on MacBook Pro Problems"

    Semalt 将爬取的数据无差别地输入 LLM, 要求生成"吸引眼球的新闻", 完全不在乎内容的任何真实性.

    为什么我认为是 Semalt.com

    直接证据:重定向追踪

    在测试这些虚假页面时, 发现点击某些页面会被重定向到以下域名:

    这些域名直接指向 Semalt 及其关联服务. 其中 podbex.com 直接重定向至 semalt.com aio.com.ai 的其中一个 google chrome 浏览器扩展的开发者是"Semalt LLC" semalt.com/autoseo 是 Semalt 的自动化 SEO 服务页面, 正是生成这些虚假页面的产品.

    Semalt 的历史劣迹

    Semalt.com 在 SEO 社区中早已臭名昭著:

    referrer spam (引荐垃圾)

    • 2014-2016 年, Semalt 大规模污染网站的 Google Analytics 数据
    • 在访问统计中留下大量虚假引荐记录
    • 目的是让网站管理员看到"semalt.com"并访问其网站

    aggressive crawling (激进爬虫)

    • 不遵守 robots.txt 规则
    • 大量消耗服务器资源
    • 被全球数万网站管理员投诉

    黑帽 SEO 服务

    • 承诺"快速提升排名"和"增加流量"
    • 使用违反搜索引擎政策的手段
    • 客户面临被 Google 惩罚的风险

    社区讨论

    • Moz 、Reddit /r/SEO 、WebmasterWorld 等平台有大量关于 Semalt 的投诉
    • StackOverflow 上有数十个"如何屏蔽 Semalt"的技术问答
    • 被 SEO 从业者广泛认为是"垃圾服务商"

    商业模式吻合

    1. 不择手段获取流量
    2. 规模化操作
    3. 欺骗索引擎
    4. 滥用他人品牌

    这些虚假的 AI 垃圾仍然在极速增速生成

    根据识别号变化推算:

    时期 识别号范围 日均生成量
    10 月中旬 120 万 → 290 万 约 12 万/天
    10 月底-11 月初 290 万 → 770 万 约 37 万/天
    11 月中旬 770 万 → 1007 万 约 44 万/天

    按当前速度计算:

    • 每天:40 万+ 页
    • 每小时:1.6 万+ 页
    • 每分钟:280+ 页
    • 每秒:4-5 页

    希望站长能考虑屏蔽 Semalt 的爬虫访问 (他们似乎不在乎 robots.txt)

    3 条回复    2025-11-18 01:16:06 +08:00
    Shazoo
        1
    Shazoo  
       20 小时 37 分钟前
    粗看是 agc+蜘蛛池。
    MIUIOS
        2
    MIUIOS  
       20 小时 31 分钟前
    这块还真的是美国遥遥领先了
    flyqie
        3
    flyqie  
       6 小时 58 分钟前 via Android
    @MIUIOS #2

    可是这家是乌克兰公司...总部在乌克兰
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4342 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 00:14 PVG 08:14 LAX 16:14 JFK 19:14
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86