This topic created in 3524 days ago, the information mentioned may be changed or developed.
比如用 scrapy 写了一个爬虫,用 xpath 写了规则获取信息,然后放在服务器欢快的执行了
但如果对方网站改版了,如何第一时间感知到呢?
想到的办法:
1.跟 sentry 结合,报错了发邮件通知
2.用 log 记录,然后用 elk 来处理
有更好或者更优雅的解决办法吗?
14 replies • 2016-09-25 03:43:02 +08:00
 |
|
2
Magic347 Sep 23, 2016
没有所谓的优雅方案,数据采集永远都是脏活累活,而且属于暗网技术。
|
 |
|
3
alwayshere Sep 23, 2016
v2ex 政治观点是爬虫都是可耻卑鄙的,你发错地方了
|
 |
|
5
viko16 Sep 23, 2016 via Android
等报错邮件不就好了么?
|
 |
|
7
id4alex Sep 23, 2016
exception 发邮件
|
 |
|
8
killerv Sep 23, 2016
这个,采集出错就知道了,或者出错发邮件提醒之类的。没有好办法,而且网站改版的频率不会很高……
|
 |
|
9
mutoulbj Sep 23, 2016
我也觉得是等出错报警吧。改版也不是一定会影响爬虫。
|
 |
|
11
ytmsdy Sep 23, 2016
打 log ,记录连续错误次数,如果次数过多停止,发邮件。
|
 |
|
13
wizardforcel Sep 24, 2016
如果对方有 JSON 接口,我宁可花点时间反编译也不用 HTML 的。
|
 |
|
14
ooh Sep 25, 2016 via Android
要求改版必须经过你的签字同意才允许
|