V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bOOOOc
V2EX  ›  信息安全

Semalt.com 用 AI 生成 1000 万+ 虚假页面骗搜索流量, V2EX 内容遭严重滥用

  •  5
     
  •   bOOOOc · 1 天前 · 1188 次点击

    问题概述

    通过 Google 搜索追踪发现,Semalt.com 正在运营一个大规模的 AI 驱动 SEO 欺诈系统. 该系统爬取 V2EX 等技术社区的内容, 使用 AI 生成虚假标题和描述, 然后通过 URL 参数注入到数百个客户网站中, 以劫持搜索引擎流量。

    从 URL 中的序列号可以看出, 该系统已生成超过 1000 万个虚假页面.

    追踪数据

    • 2025-10-16: 识别号 1,226,522
    • 2025-11-16: 识别号 9,956,398
    • 2025-11-17: 识别号 10,070,497
    • 月增长: 870 万页
    • 生成速度: 日均 28 万页, 11 月加速到 40 万+ 页/天

    验证方法

    任何人都可以在 Google 搜索以下内容验证:

    inurl:"?s-news" inurl:"2025-11" "v2ex"
    inurl:"?s-news" inurl:"2025-10" "v2ex"
    

    工作原理

    URL 模式

    https://[域名]/?s-news-[识别号]-[日期]-[AI 垃圾标题]
    

    运作流程

    1. 爬取内容 - Semalt 大量爬取 V2EX 页面 (包括用户个人资料页面)

    2. AI 生成虚假新闻 - AI 被输入 V2EX 的页面信息, 被要求编写虚构的随机"新闻", 标题和描述尽可能吸引人. 例如:

      • "WangSD Discontinues Tech Engagement After V2EX Membership Termination"
      • "V2EX 用户 liuliancc 未能加入本站,未成为第 522760 号会员,时间早于 2020 年 12 月 7 日 20 时 37 分"
      • "Innovative Personal News Briefing System Proposed by V2EX Member FFM"
      • "V2EX Member Wang Shares Insights on MacBook Pro..."
    3. 参数注入 - 通过 URL query parameters 将生成的内容注入到客户网站

    4. 搜索引擎索引 - Google 索引这些页面, 将 AI 生成的欺骗性虚假标题和描述编入搜索结果

    5. 流量劫持 - 用户搜索 V2EX 相关内容时, 看到大量"神秘 V2EX 小新闻", 点击后被导向完全不相关的网站

    搜索结果截图

    Google 搜索 inurl:"?s-news" inurl:"2025-10" "v2ex"

    Google 搜索 inurl:"?s-news" inurl:"2025-10" "v2ex"

    Google 搜索 inurl:"?s-news" inurl:"2025-11" "v2ex"

    甚至搜索我自己的 V2EX 用户名 "bOOOOc" 时, 都能找到使用 Semalt SEO 欺诈手法的网站. Google 搜索我的 V2EX 用户名

    可以看到这些 AI 生成的虚假标题都含有 v2ex

    实际的例子

    以下是实际发现的虚假页面示例:

    例 1:地方新闻网站

    https://lufkindailynews.com/test/?s-news-7728932-2025-11-11-v2ex-userliuliancc...
    
    • 标题声称: 报道 V2EX 用户 liuliancc 未能注册会员的"新闻"
    • 实际内容: 美国 Lufkin 地方新闻网站,与 V2EX 毫无关系
    • 虚构程度: 把注册失败的数据包装成新闻报道

    例 2:伊朗通讯社

    https://www.isna.ir/news/...?s-news-8218190-2025-11-12-member-of-v2ex-exploring...
    
    • 标题声称: V2EX 会员在技术社区的贡献分析
    • 实际内容: 伊朗通讯社关于恐怖袭击的波斯语新闻
    • 欺骗性: URL 参数完全独立于页面实际内容

    例 3:哥伦比亚大学

    https://globalfreedomofexpression.columbia.edu/about/...?s-news-3135576...
    
    • 标题声称: V2EX 用户技术交流分析
    • 实际内容: 哥伦比亚大学言论自由项目页面
    • 影响: 连大学网站也被利用

    受影响的域名(部分)

    初步发现涉及数百个域名,包括但不限于:

    新闻媒体:

    教育机构:

    商业网站:

    其他:

    这些网站是 Semalt 的付费客户,购买了其"autoSEO"或者"AIO Promotion"服务。 但这些客户可能:

    1. 完全知情并接受这种黑帽手段
    2. 不完全了解 Semalt 的具体操作方式,以为是正规 SEO
    3. 只关心流量数字,不在乎来源和方式

    AI 生成内容的展示

    1. 编造戏剧性事件

      • 把"用户注销账号"编成"被开除并停止技术讨论"
      • 例如:"WangSD Dismissed from V2EX and Discontinues Tech Engagement"
    2. 把数据记录包装成新闻

      • 将后台数据编成"独家报道"
      • 例如:"V2EX 用户 liuliancc 未能加入本站,未成为第 522760 号会员,时间早于 2020 年 12 月 7 日 20 时 37 分"
    3. 虚构创新提案

      • 从关键词中提取,编造不存在的"重大创新"
      • 例如:"Innovative Personal News Briefing System Proposed by V2EX Member FFM"
    4. 普通求助变专家见解

      • 把"救命,我的 MBP 坏了"包装成"资深用户专家分析"
      • 例如:"V2EX Member Wang Shares Insights on MacBook Pro Problems"

    Semalt 将爬取的数据无差别地输入 LLM, 要求生成"吸引眼球的新闻", 完全不在乎内容的任何真实性.

    为什么我认为是 Semalt.com

    直接证据:重定向追踪

    在测试这些虚假页面时, 发现点击某些页面会被重定向到以下域名:

    这些域名直接指向 Semalt 及其关联服务. 其中 podbex.com 直接重定向至 semalt.com aio.com.ai 的其中一个 google chrome 浏览器扩展的开发者是"Semalt LLC" semalt.com/autoseo 是 Semalt 的自动化 SEO 服务页面, 正是生成这些虚假页面的产品.

    Semalt 的历史劣迹

    Semalt.com 在 SEO 社区中早已臭名昭著:

    referrer spam (引荐垃圾)

    • 2014-2016 年, Semalt 大规模污染网站的 Google Analytics 数据
    • 在访问统计中留下大量虚假引荐记录
    • 目的是让网站管理员看到"semalt.com"并访问其网站

    aggressive crawling (激进爬虫)

    • 不遵守 robots.txt 规则
    • 大量消耗服务器资源
    • 被全球数万网站管理员投诉

    黑帽 SEO 服务

    • 承诺"快速提升排名"和"增加流量"
    • 使用违反搜索引擎政策的手段
    • 客户面临被 Google 惩罚的风险

    社区讨论

    • Moz 、Reddit /r/SEO 、WebmasterWorld 等平台有大量关于 Semalt 的投诉
    • StackOverflow 上有数十个"如何屏蔽 Semalt"的技术问答
    • 被 SEO 从业者广泛认为是"垃圾服务商"

    商业模式吻合

    1. 不择手段获取流量
    2. 规模化操作
    3. 欺骗搜索引擎
    4. 滥用他人品牌

    这些虚假的 AI 垃圾仍然在极速增速生成

    根据识别号变化推算:

    时期 识别号范围 日均生成量
    10 月中旬 120 万 → 290 万 约 12 万/天
    10 月底-11 月初 290 万 → 770 万 约 37 万/天
    11 月中旬 770 万 → 1007 万 约 44 万/天

    按当前速度计算:

    • 每天:40 万+ 页
    • 每小时:1.6 万+ 页
    • 每分钟:280+ 页
    • 每秒:4-5 页

    希望站长能考虑屏蔽 Semalt 的爬虫访问 (他们似乎不在乎 robots.txt)

    4 条回复    2025-11-18 09:31:35 +08:00
    Shazoo
        1
    Shazoo  
       1 天前
    粗看是 agc+蜘蛛池。
    MIUIOS
        2
    MIUIOS  
       1 天前
    这块还真的是美国遥遥领先了
    flyqie
        3
    flyqie  
       1 天前 via Android
    @MIUIOS #2

    可是这家是乌克兰公司...总部在乌克兰
    xinyu391
        4
    xinyu391  
       1 天前
    “参数注入 - 通过 URL query parameters 将生成的内容注入到客户网站”
    这是啥原理? 还能访问 客户网站 代码?
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5747 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 02:47 · PVG 10:47 · LAX 18:47 · JFK 21:47
    ♥ Do have faith in what you're doing.