V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
happydayandnight
V2EX  ›  站长

网站如何防爬

  •  
  •   happydayandnight · 239 天前 · 1317 次点击
    这是一个创建于 239 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我们网站有 IP 限制,一些关键信息还有点击限制,比如电话需要点击才会请求服务器显示,每天也有次数限制(通过 IP )。但是还是被爬了。

    对方提到的技术如下,请问如何防爬:
    l was used Proxy rotating for solve blocking and Use seleniumweb driver for click. Finally l was successfully scraped 40K data from thesourcing site.
    第 1 条附言  ·  239 天前
    谢谢各位。 我看了一个 scraper 网站,说有百万个 IP 可以用。这样看来是无论如何也不能完全禁止了
    10 条回复    2024-04-24 13:41:06 +08:00
    cruzzz
        1
    cruzzz  
       239 天前
    IP 限制、点击限制、次数限制,这些和防爬一点关系也没有。我一个 wordpress 小白都听不下去了。
    感觉这个话题太大了,以我在 v2 摸鱼这么多年的经验来看,最后一般是:无解~

    没有爬不到的网页。
    passive
        2
    passive  
       239 天前 via Android
    关闭字体缓存,随机字体编码。但是也隔绝了搜索引擎的爬虫。
    cJ8SxGOWRH0LSelC
        3
    cJ8SxGOWRH0LSelC  
       239 天前   ❤️ 1
    反爬都是以牺牲用户体验为代价的, 例如淘宝, 淘宝网页版反爬,把用户都弄的跑光了, 没一个人会说淘宝的体验好。
    我觉得只要没有影响到服务器运行, 不要用什么反爬策略,最多也就是限制一下极端的请求频率即可。
    devswork
        4
    devswork  
       239 天前
    没有绝对的反爬,OCR 怎么解?
    fyq
        5
    fyq  
       239 天前
    技术上讲,只要能显示出来的东西,都能被爬到。经济上说,看哪一方谁更愿意投入成本而已。
    fuzzsh
        6
    fuzzsh  
       239 天前 via Android
    用 css 画不用字体,干下 50%爬虫
    kernelpanic
        7
    kernelpanic  
       239 天前
    瑞数
    HUZHUANGZHUANG
        8
    HUZHUANGZHUANG  
       239 天前
    cloudflare 的那个进站验证是不是人那个功能,不知道可以不可以
    baobao1270
        9
    baobao1270  
       239 天前
    上 Cloudflare ,开 Bot Fight Mode
    happydayandnight
        10
    happydayandnight  
    OP
       239 天前
    @baobao1270 开了 Bot Fight Mode 的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5397 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 05:52 · PVG 13:52 · LAX 21:52 · JFK 00:52
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.