Bytespider 得知来自于头条系。一搜索发现众多小站中招。
几宗罪:
useragent 为 Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.4988.1224 Mobile Safari/537.36; Bytespider,
我的服务器是 win server 2016,,,IIS 8.0 因业务特殊,没有用 Nginx。。
搜索到的解决方案是: 封禁 user-agent ? 屏蔽 IP 段?
请教如何在 IIS 中进行相应的设置进行封禁此恶意的抓取?
附图(转载至他站,IIS 日志中类似于此)
1
haoji 2019-10-22 22:01:16 +08:00 via iPhone
别说之前没想过,好像他家的爬虫真的挺占资源的…
|
2
xiaomimix5 OP @haoji 关键是不遵守 robots.txt 的 disallow 规则
|
3
wangyzj 2019-10-22 22:12:13 +08:00
好歹人家是爬虫起家的
|
4
mamahaha 2019-10-22 22:13:37 +08:00
不是靠内含段子起家的吗?
|
5
uyhyygyug1234 2019-10-22 22:18:59 +08:00 10
如果是 Bytespider 的 ua,返回一点违禁词。。。
|
6
TheWalkingDead 2019-10-22 22:26:10 +08:00 1
花钱找人 DDOS 你们,让他们爬虫进不来。
|
7
ddup 2019-10-22 22:28:22 +08:00 via Android
举报他们非法爬取数据
|
8
nevin47 2019-10-22 22:35:20 +08:00 via Android
不遵守 robots 一举报一个准啊
|
9
jeeyong 2019-10-22 23:00:48 +08:00 2
报警吧..前段时间刚抓一家公司...
一样的事情... |
10
alocne 2019-10-22 23:01:32 +08:00 1
防火墙屏蔽
110.249.202.0/24 110.249.201.0/24 111.225.149.0/24 111.225.148.0/24 |
11
ClericPy 2019-10-22 23:01:57 +08:00
@uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的...
|
13
misaka19000 2019-10-22 23:09:35 +08:00
报警
|
14
nyaapass 2019-10-22 23:16:17 +08:00
报警 + 1
|
15
leonard916 2019-10-22 23:16:53 +08:00
可以告他们 好多程序员都因此收到过传票
|
16
jinliming2 2019-10-22 23:51:11 +08:00 via iPhone
丢个 gzip 炸弹过去
|
17
dioxide 2019-10-23 00:06:03 +08:00
之前 v2 一帖子说: 某人使用爬头条的内容被头条立案起诉了... 说它是爬虫起家的真不为过.
|
18
xiaoz 2019-10-23 02:02:03 +08:00
@uyhyygyug1234 奇淫技巧
|
19
zbl430 2019-10-23 09:20:13 +08:00
收集证据,律师函 ->起诉
最恨的手段识别这些 ip,返回错误数据(和真的一样) |
20
zsj950618 2019-10-23 09:33:32 +08:00 via Android
|
21
humor66 2019-10-23 10:16:44 +08:00
不赶紧爬,怎么做搜索?
|
22
cnrting 2019-10-23 12:19:19 +08:00 via iPhone
屏蔽 ip 最简单有效
|
23
unclemcz 2019-10-23 13:30:02 +08:00
直接封 IP 吧,我对 Bytespider 的操作是这么处理的,很简单很暴力,只要特定页面记录访客浏览记录( ua、ip ),程序定期检索访客的 ua,检索到关键字后,将对应的 ip 加到屏蔽列表。
|
24
skenan 2019-10-25 02:56:34 +08:00
自己用的..
``` if ($http_user_agent ~* (bytespider|scrapy)) { return 444; } ``` |