网站如何防爬 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐书目

› 高性能网站建设进阶指南

› High Performance Web Sites

› Google Hacks: Tips & Tools for Finding and Using the World's Information

关于 Google SEO 最好的一本书

这是一个创建于 504 天前的主题，其中的信息可能已经有所发展或是发生改变。

我们网站有 IP 限制，一些关键信息还有点击限制，比如电话需要点击才会请求服务器显示，每天也有次数限制（通过 IP ）。但是还是被爬了。

对方提到的技术如下，请问如何防爬：
l was used Proxy rotating for solve blocking and Use seleniumweb driver for click. Finally l was successfully scraped 40K data from thesourcing site.

第 1 条附言 · 2024-04-24 13:42:17 +08:00

谢谢各位。我看了一个 scraper 网站，说有百万个 IP 可以用。这样看来是无论如何也不能完全禁止了

10 条回复 • 2024-04-24 13:41:06 +08:00

1

cruzzz

2024-04-23 19:36:01 +08:00

IP 限制、点击限制、次数限制，这些和防爬一点关系也没有。我一个 wordpress 小白都听不下去了。
感觉这个话题太大了，以我在 v2 摸鱼这么多年的经验来看，最后一般是：无解~

没有爬不到的网页。

2

passive

2024-04-23 19:49:18 +08:00 via Android

关闭字体缓存，随机字体编码。但是也隔绝了搜索引擎的爬虫。

3

cJ8SxGOWRH0LSelC

2024-04-23 19:53:04 +08:00

1

反爬都是以牺牲用户体验为代价的，例如淘宝，淘宝网页版反爬，把用户都弄的跑光了，没一个人会说淘宝的体验好。
我觉得只要没有影响到服务器运行，不要用什么反爬策略，最多也就是限制一下极端的请求频率即可。

4

devswork

2024-04-23 20:12:04 +08:00

没有绝对的反爬，OCR 怎么解？

5

fyq

2024-04-23 20:15:45 +08:00

技术上讲，只要能显示出来的东西，都能被爬到。经济上说，看哪一方谁更愿意投入成本而已。

6

fuzzsh

2024-04-23 20:15:49 +08:00 via Android

用 css 画不用字体，干下 50%爬虫

7

kernelpanic

2024-04-23 20:49:35 +08:00

瑞数

8

HUZHUANGZHUANG

2024-04-23 21:37:06 +08:00

cloudflare 的那个进站验证是不是人那个功能，不知道可以不可以

9

baobao1270

2024-04-24 02:05:27 +08:00

上 Cloudflare ，开 Bot Fight Mode

10

happydayandnight

OP

2024-04-24 13:41:06 +08:00

@baobao1270 开了 Bot Fight Mode 的

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · 实用小工具 · 4618 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 27ms · UTC 09:54 · PVG 17:54 · LAX 02:54 · JFK 05:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.