1
linvaux 2023-10-25 17:41:12 +08:00
敢爬 gov ,纯属作死
|
2
WeiPong 2023-10-25 17:42:19 +08:00 1
按年收费
|
3
Granado 2023-10-25 17:43:29 +08:00
建议不收费
|
6
Endocryne OP 有机构专门做过监管处罚分析的,所以肯定都有人爬过的
https://www.pwccn.com/zh/insurance/publications/analysis-regulatory-penalties-insurance-dec2021.pdf |
7
lisxour 2023-10-25 17:51:57 +08:00
|
9
wpyfawkes 2023-10-25 18:03:09 +08:00 3
我知道的风险有两个:
1. 如果没控制好请求频率,导致网站无法访问.那就是严重破坏计算机系统罪. 2. 如果网站有漏洞,能爬到一些不能公开发布的文件.那就是非法取得国家秘密罪. 建议找个境外的老哥接单.🤣 |
11
scorpion91 2023-10-25 18:08:10 +08:00 1
@lisxour 中国讲这些是没用的,说你犯法就犯法
|
12
dufldylan1 2023-10-25 18:11:29 +08:00
@wpyfawkes 然后被承德的老哥们接单
|
13
evan9527 2023-10-25 18:11:34 +08:00
风险太高。
刑不可知,威不可测 |
14
lun9 2023-10-25 18:14:27 +08:00 via iPhone
那么大风险才几百块,懒得接,哈哈哈
|
15
tom8 2023-10-25 18:15:39 +08:00 3
爬着爬着 处罚名单里面应该就有自己的信息了
|
16
tool2d 2023-10-25 18:25:16 +08:00
码农先做爬虫最好就是免费,一收费风险会直线上升。
一个没任何加密的爬虫项目顶天收 1~2k ,你也发不了财,直接变成一个潜在的背锅侠。 |
17
5dang 2023-10-25 18:50:08 +08:00 via iPhone
主要是含表格,而且各地分局不一样,这个比较扯。
TB 和 XY 都有商务接单,去询个价格呗。 |
18
MajestySolor 2023-10-25 18:52:48 +08:00
兄弟胆子有点大啊👍
|
19
lrabbit 2023-10-25 18:56:29 +08:00
别在网上乱说,用个代理爬,谁知道你爬的,没啥风险,而且这种数据公开的
|
20
netnr 2023-10-25 19:04:20 +08:00 via Android
爬取数据须遵规
https://www.spp.gov.cn/llyj/202202/t20220210_543998.shtml 从三个方面划定数据爬虫技术合法使用的边界: 一是合法的网络数据爬取应限于对开放数据的获取。如果网络爬虫获取非开放的数据,便涉嫌违法甚至犯罪; 二是合法使用的数据爬虫技术不应具有侵入性,可以说,爬虫的侵入性是其违法性的主要体现; 三是数据爬取应当基于正当目的,对开放数据的获取可能因不符合正当目的而具有违法性。对开放的非商业性数据的爬取应当要求符合公共利益之根本目的。对开放的商业性数据的爬取则可借鉴版权法上的合理使用原则,要求基于合理利用目的。 |
22
bluetree 2023-10-25 19:09:00 +08:00
做好自己这边的风险隔离,之后就干呗,做好爬虫的保险装置,gov 流氓级别,祝你好运
|
23
netnr 2023-10-25 19:10:01 +08:00 via Android
大多数是第二条,没控制好频率,搞成压力测试
|
24
thinkm 2023-10-25 19:11:13 +08:00
坏消息:爬到自己了
|
25
netnr 2023-10-25 19:15:16 +08:00 via Android
|
26
iorilu 2023-10-25 19:45:10 +08:00 1
关键频率一定要低
你要知道, 政府网站大多都是 N 年前随便凑得系统 根本没任何高并发能力, 可能 10 个并发就能拖垮, 到时候你就麻烦了 |
27
520discuz 2023-10-25 20:18:20 +08:00
爬=攻击 等着那啥吧...
|
28
potatowish 2023-10-25 22:01:16 +08:00 via iPhone
很多事都是秋后算账,当时你觉得没事,事后揪住这个小辫子搞你一波
|
29
xuhuanzy 2023-10-25 22:38:12 +08:00
政府小水管要是崩了必抓人
|
30
LudwigWS 2023-10-25 22:42:10 +08:00 via iPhone 1
@lisxour 时间不值钱?写这种定制需求代码要稳定运行怎么也得一天吧,不是出于学习爬虫目的真懒得写,上班的很难为了几百块写这些代码
|
31
zbwsmile 2023-10-25 23:20:45 +08:00 via iPhone
可以加我微信聊
|
32
tramm 2023-10-26 08:33:38 +08:00
1 分钟请求一次应该不要紧
|
33
nodejsexpress 2023-10-26 08:44:18 +08:00 2
@lisxour 还是留给你做吧.
|
34
lisxour 2023-10-26 10:36:58 +08:00
@LudwigWS 可能水平问题吧,这样的网站,只抓数据的话,代码 + 调试,不超两小时。。。如果有明码 JSON ,不需要破解 JS 的情况下,这种网站我中途都不需要调试的,20-30 分钟写完代码,一次就过😂
|
35
lisxour 2023-10-26 10:46:42 +08:00
@LudwigWS 这类单通常不具备完善的合同制或者压根没合同,而且从我这么久的经验来说,绝大部分人(客户)都对需求说明比较弱,很多东西说不清楚,所以需求沟通时间成本和中间各种琐碎皮毛的修改才是占用时间的大头,不是代码时间,核心代码 1/3 时间,其他沟通+修改 2/3 时间,这都常有的事。屁大点的爬虫,你以沟通等的理由说加钱吧,客户也不会接受,不加钱吧,自己也不划算。
|
36
xiamy1314 2023-10-26 10:47:50 +08:00
为了几百块。。。属实没必要。。。
|
38
SixGodHave7 2023-10-26 11:27:35 +08:00
@netnr 欲练爬虫,先学刑法
|
40
realpg 2023-10-26 13:55:57 +08:00
|
41
1018ji 2023-10-26 14:09:30 +08:00
建议自学爬虫,为了这几百块爬国家网站,是多缺钱
|
42
momoe 2023-10-26 17:03:45 +08:00
这个收费千儿八百都正常,关键是 gov 没几个人敢碰而已。但是看了下量不大,手工复制粘贴都完事儿了= =
|
43
Winrey 2023-10-26 18:28:04 +08:00
|
44
chenzw2 2023-10-27 08:50:27 +08:00
建议按判刑年数收费
|
47
raycool 2023-10-29 14:56:38 +08:00
这个爬虫应该没啥难度
|