V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
SoulClinic
V2EX  ›  程序员

[阿里爬虫] 如何应对反爬?

  •  
  •   SoulClinic · 2022-02-23 13:57:41 +08:00 · 11260 次点击
    这是一个创建于 764 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在做房产拍卖的爬虫,京东的很好爬,很容易就爬到需要的几千条记录(包括图片,附件,自动生成海报),自动生成数据库需要的数据 (node.js + puppeteer),在小程序显示:

    但要爬淘宝的就难多了,时不时要求登陆或者验证(如果请求频繁),也会让你休息,看网上也有很多普通用户抱怨这个 关键是滑滚过去还会失败:

    https://sf.taobao.com/item_list.htm

    正在摸索,阿里主要是根据 cookie 来判别请求是否过于频繁,网上也说了每个请求最好相隔几秒

    更可恶的是,在阿里自己的阿里云服务器根本就请求不到(无论是什么 cookie ),我要本地定时爬然后发到远程服务器~~ 😡

    请问该如何道高一尺魔高一丈?🎃

    第 1 条附言  ·  2022-02-25 12:34:47 +08:00
    🚦友情提醒:
    这主要是爬虫技术爱好分享交流,同学们要遵守爬虫协议,爬到的网站的信息不能用于商业,否则会收到律师请你喝茶哟~
    158 条回复    2022-03-01 15:27:19 +08:00
    1  2  
    yedanten
        101
    yedanten  
       2022-02-24 10:26:58 +08:00 via Android
    想想如果阿里起诉你,你和客户分别承担多少责任,在想想客户给你多少钱,自己权衡。
    weeiy
        102
    weeiy  
       2022-02-24 10:32:13 +08:00
    证据明确,目标清晰,非法破坏计算机系统罪就差一步。
    gongquanlin
        103
    gongquanlin  
       2022-02-24 10:43:32 +08:00
    @RickyC 我估计他只是把触发的阈值做的很低;他肯定是做很多个特征,然后计算阈值
    mytsing520
        104
    mytsing520  
       2022-02-24 10:55:56 +08:00
    和什么行业无关,既然人家做了反爬虫,楼主你就不要去爬。除非对方书面确认授权你爬取。
    如果是个人行为,大概率你自己单独被抓,你供出客户,客户自己不承认就完事了,除非你有明确的书面证据。这样你和客户一起吃牢饭。
    如果是公司行为,程序猿、公司法人、客户一起吃牢饭。
    另外,行业里一般不会招吃过牢饭的人。
    HiCoder
        105
    HiCoder  
       2022-02-24 10:56:54 +08:00
    刑啊,这日子也越来越有判头了
    byte10
        106
    byte10  
       2022-02-24 10:58:49 +08:00
    哈哈,你去给我的视频点赞,我就给你方案嘿嘿。https://www.bilibili.com/video/BV1FS4y1o7QB ,我教你 nodejs 的 高级 浏览器,性能也满足。
    jingslunt
        107
    jingslunt  
       2022-02-24 11:06:32 +08:00
    爬虫已经入刑不知道吗
    lakehylia
        108
    lakehylia  
       2022-02-24 11:18:54 +08:00   ❤️ 1
    都劝了一页纸了,楼主还不回头,别劝了。。。
    puzzle9
        109
    puzzle9  
       2022-02-24 11:37:14 +08:00
    给上 上不听 卡
    yundun2021
        110
    yundun2021  
       2022-02-24 11:44:41 +08:00
    爬虫爬的好,牢饭吃到饱
    chenmobuys
        111
    chenmobuys  
       2022-02-24 11:44:53 +08:00
    @SoulClinic 客户当然说没事了,你要问律师
    mxT52CRuqR6o5
        112
    mxT52CRuqR6o5  
       2022-02-24 11:51:36 +08:00 via Android
    多雇点人,人肉爬,法律上很安全
    lolizeppelin
        113
    lolizeppelin  
       2022-02-24 11:55:52 +08:00
    楼主你就别搜知乎来证明不危险了
    你觉得法官会看知乎来决定判不判你?

    犯罪不犯罪是看告你的人怎么告,法官怎么判
    天天有那么多人爬京东淘宝...很多还是出于学习目的测试的...淘宝京东也没兴趣每个都告

    你值得不值得告的判断标准在别人手上...
    被告了是不是犯罪...那得看法官律师,你觉得真要告你了,京东淘宝的律师水平怎么样?

    你不怕就继续爬呗...反正一时半会肯定是不会出事的..出事了你也没心情这里发帖了
    ctro15547
        114
    ctro15547  
       2022-02-24 12:37:59 +08:00
    尽量国外服务器做这事
    尽量不要在墙内留下你个人信息
    国内有做爬虫被抓的案例 很刑的
    SoulClinic
        115
    SoulClinic  
    OP
       2022-02-24 13:13:14 +08:00
    细思极恐,尤其是爬的时候又要登陆自己的淘宝账号,知道是谁在爬。。。

    @zjddp 咱当然有收手的意思啊,至少我会问下客户,其实就是自己的好友,也不会有多少报酬(除非他因此赚到了),咱还疑惑这么多,主要是 Stay hungry, stay foolish. 好奇心和求知欲作怪
    @lolizeppelin 在爬虫这一方面俺是新手,没看到多少这么可怕的案例新闻,很多都不知道。。

    谢谢大家的忠言让咱悬崖勒马了,咱原本是想享受破解的过程,就像数学难题考试
    听君一席言胜读十天书
    faustina2018
        116
    faustina2018  
       2022-02-24 13:20:19 +08:00
    建议你想办法联系管理员把帖子删掉
    你可能不知道,v2ex 的所有帖子都是不能自主删除的

    这个帖子会给你带来多严重的后果你看起来毫无概念
    Nightmares13
        117
    Nightmares13  
       2022-02-24 13:53:57 +08:00
    直接跳脸京东,老哥,你有点东西啊。法律已经限制不住你了吗?
    bzsh
        118
    bzsh  
       2022-02-24 13:57:44 +08:00
    @SoulClinic 单开服务,定期去生成 cookie ,放队列或者直接临时生成,话说你不怕吗,哈哈哈哈
    SoulClinic
        119
    SoulClinic  
    OP
       2022-02-24 13:58:05 +08:00
    @Nightmares13 冤枉啊,无知者无罪啊,咱以为这是合法的才敢这样光明正大啊😹
    figlu
        120
    figlu  
       2022-02-24 14:38:05 +08:00
    反爬虫就是不做爬虫
    zhch602
        121
    zhch602  
       2022-02-24 15:03:20 +08:00
    @ospider 你说的很对啊,中国千万人用梯子,被抓的有几个?中国写爬虫的多少人?被抓的有几个?
    zhch602
        122
    zhch602  
       2022-02-24 15:05:27 +08:00
    @herozzm 你看看今日头条什么时候火的,再看看爬虫违法是什么时候开始的,你现在再做一个今日头条试试,我看刑
    lingo
        123
    lingo  
       2022-02-24 15:14:57 +08:00
    听听楼上的。他不反爬,还能说是公开的,有点争议。。他反爬了你还爬,那就一点争议都没了。
    SoulClinic
        124
    SoulClinic  
    OP
       2022-02-24 15:27:27 +08:00
    @figlu 咱主要是冲着技术学习上去的,闹着玩,没有利益化
    SoulClinic
        125
    SoulClinic  
    OP
       2022-02-24 15:34:52 +08:00
    如果咱把爬到的数据只是内部用,不公开出去,这算是合法吗?也不会有很大量的请求(可能一个普通用户的请求都比不上,因为只会搜取关键的几个请求,不用图片等信息)
    Nightmares13
        126
    Nightmares13  
       2022-02-24 15:52:20 +08:00
    @SoulClinic 这话你和网安说吧
    dingyx99
        127
    dingyx99  
       2022-02-24 16:21:42 +08:00
    @SoulClinic 你不会真觉得 技术学习 四个字是万能的吧
    SoulClinic
        128
    SoulClinic  
    OP
       2022-02-24 17:58:58 +08:00
    @dingyx99 没有技术是万万不能的啊
    collen
        129
    collen  
       2022-02-24 19:22:22 +08:00
    昨天到今天一天了,实在看不下去了 。 善意劝人如杀人父母,直接给京东发邮件让他进去好好学习一下,自用,公开,不商用,学习无止境好了.
    collen
        130
    collen  
       2022-02-24 19:25:53 +08:00
    https://kknews.cc/zh-my/story/nxgn5r3.html 借用一下 第四种人当自己病魔侵身,四大离散,如风前残烛的时候,才悔恨当初没有及时努力,在世上空走了一回。好比第四等驽马,受到彻骨彻髓的剧痛,才知道奔跑。然而,一切都为时过晚了。 祝技术越来越好,国家饭越吃越饱.
    SoulClinic
        131
    SoulClinic  
    OP
       2022-02-24 19:58:46 +08:00
    @collen 没有“善意劝人如杀人父母”吧,咱感谢了大家提醒,自己细思极恐啊
    只是自己的好奇心还是会作怪把不理解或者没有经历过的疑问提出来,看来是应该跟 Google 提
    总得来说动机不坏,原本是想挑战技术难题,没有考虑利益冲突,现在意识到了会改邪归正的
    hallDrawnel
        132
    hallDrawnel  
       2022-02-24 20:28:33 +08:00
    兄弟,这么多人说法律问题我就不多说了,违不违法如果你不确定,可以问问身边的律师朋友,或者看看各个地方法院的判例。你要锻炼技术也好做什么也罢,但你至少要确定一点,爬到的数据你有没有最终的控制权,以及失控后(比如说被其他团队商用了而你不知情)如果有一天淘宝京东法务过来告你们公司,你会不会是那个被推出来背锅的人。
    2MO
        133
    2MO  
       2022-02-24 20:30:26 +08:00
    一个技术交流贴这么多人不聊技术只聊法律,v2 直接改法律工作者论坛好了。
    SoulClinic
        134
    SoulClinic  
    OP
       2022-02-24 20:36:56 +08:00
    @hallDrawnel 今天就把这里的讨论跟客户说了,他也是会改变策略的,会去确认一下是否合法或者是否可以内部使用的了
    @2MO 是有点超乎咱想象的,发帖时以为大家会冲着爬虫 /破解技术兴趣讨论,没想到是超乎想象的好心提醒,磕头感谢大伙免了咱的牢狱之灾
    2MO
        135
    2MO  
       2022-02-24 20:53:12 +08:00
    @SoulClinic 还是去 52pojie 交流技术吧,V2 已经变味了。来这里摸鱼扯淡就好。
    SoulClinic
        136
    SoulClinic  
    OP
       2022-02-24 21:04:06 +08:00
    咱初中就是数学拿满分 /第一,政治、历史不及格那种,对法律就是文盲
    2MO
        137
    2MO  
       2022-02-24 21:14:34 +08:00
    @icy37785 我都不怕要你怕?是不是太把自己当回事了。这个帖子是来交流技术还是交流法律的,自己先长不长眼,还我不懂法,爬取资料不破坏其服务器正常服务并不将爬取数据进行商用,对方公司干嘛找我?以为大产法务都很闲吗?你这么懂看来是法律专业的吧,那请你告诉我,爬取他人网站并唆使他人一起犯罪的判几年,你那么爱管事建议马上去把 B 站那些教爬虫的 UP 和那些打着爬虫技术培训班通通去举报掉,然后再开个贴弘扬一下你的战绩。
    2MO
        138
    2MO  
       2022-02-24 21:31:07 +08:00
    @xxfye 那些进去的前提是对方公司发现你侵犯他权益并且照成损失了的,我也说明了自己爬爬交流学习的能刑到哪去,B 站那些做统计的 UP 数据不也都是爬来的。况且帖子本来就是交流技术问题的,一群人只聊法律不聊技术,真的是看的无语了,来 V2 是为了看这些的吗。
    icy37785
        139
    icy37785  
       2022-02-24 22:01:28 +08:00 via iPhone
    @2MO #137 前面还以为你是单纯的不懂法,不知道事情的严重性,所以在那里大放厥词。
    看你这条回复算是明白了,原来是脑子不好在这里秀下限,那没事了。希望你小学毕业之后还这样想。
    block 了,再见。
    2MO
        140
    2MO  
       2022-02-24 22:11:15 +08:00
    @icy37785 怎么,不长眼睛看我说的是自己爬爬么,非要跟我扯违法,我就不信你这辈子清清白白一点没触碰法律。来秀智商下线的分明是你,跑到技术贴下面来秀自己的法律知识,这个是小学有毕业的人干的事?
    SoulClinic
        141
    SoulClinic  
    OP
       2022-02-24 23:10:07 +08:00
    @icy37785 @2MO
    有话好好说不要太过认真啊,虽然大多回复的是意料之外的有关法律的,但也是好言相劝忠言逆耳哈。
    如果能顺带一些技术分享那当然就更好了 😊
    2MO
        142
    2MO  
       2022-02-25 00:07:22 +08:00
    @SoulClinic 见人说人话,见鬼就学鬼话咯。另外一个哥们回我帖我也是好声好气的。但看到他的,我脾气就不待见这些自以为是的人,拉黑还要跟对方说拉黑了,简直无语她妈夸无语——好无语,搞的好像我在意他拉黑一样。这么遵纪守法的人都不知道他们翻墙来干嘛的。不好好交流技术回答问题只会阴阳怪气『教别人做人』,先把自己舌头捋直再说吧。
    lizhenda
        143
    lizhenda  
       2022-02-25 09:46:34 +08:00
    有意思
    hejw19970413
        144
    hejw19970413  
       2022-02-25 10:21:01 +08:00
    我劝你改一下你的文字,一定要遵守爬虫协议,以及人家网站的信息不要用于商用,否则会收到律师函的~
    hejw19970413
        145
    hejw19970413  
       2022-02-25 10:22:47 +08:00
    @SoulClinic 个人用是可以的,只要是在公司就不行,贩卖也不行。不是危言耸听,是真的。
    ww940521
        146
    ww940521  
       2022-02-25 10:26:03 +08:00
    爬虫这种技术不学也罢,通过损害他人利益牟利于情于理于法都不容。
    ffw5b7
        147
    ffw5b7  
       2022-02-25 11:28:55 +08:00 via Android
    最近想做一个社区买菜比价,使用于学习。
    也在看爬虫的法律问题。
    现在有一个案例 电商比价应用:购物党
    它的数据来源应该是爬虫的,为什么还存在。
    有诱有过诉讼:http://lawyers.66law.cn/s2106025344063_i210080.aspx


    更多的案例和涉及到的法律法规:
    https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China
    SoulClinic
        148
    SoulClinic  
    OP
       2022-02-25 12:14:47 +08:00
    @ww940521 就是因为经常看到爬虫相关的文章,觉得自己好像一点都不懂就有点过时了一样。。。
    咱们爬到主要是为人民服务,会有标签“京东”or“阿里”表面出处的
    前面提了,看到已经有这类公开的 app (海豚选房法拍版),所以才以为这是“理所当然”的公开信息,想开发一个海豚的加强版
    qq1340691923
        149
    qq1340691923  
       2022-02-25 15:09:03 +08:00
    你还是人吗
    qq1340691923
        150
    qq1340691923  
       2022-02-25 15:13:15 +08:00
    我给京东发邮件了
    golden0125
        151
    golden0125  
       2022-02-25 15:45:50 +08:00
    笑死,一群翻墙出来的居然大言不惭开始动之以情晓之以理讲法律了,还玩起 “这很刑 那很刑” 的梗,你们先把用什么软件翻墙出来的,有没有经过有关部门审批,除了这个论坛还去过哪些网站,说过哪些话都交代清楚吧,我看你们才是太刑了
    WWwwMMmmMMmmWWww
        152
    WWwwMMmmMMmmWWww  
       2022-02-25 16:40:12 +08:00
    爬虫真的有罪 企查查和天眼查应该早就关闭了。
    wildplant
        153
    wildplant  
       2022-02-25 19:57:40 +08:00
    楼主的“咱”=“我”,这是哪个地方的方言?
    SoulClinic
        154
    SoulClinic  
    OP
       2022-02-25 20:04:52 +08:00 via iPhone
    @wildplant 心中无我,请忘了“我”吧
    colinlp
        155
    colinlp  
       2022-02-26 00:07:01 +08:00
    造枪是技术,种罂粟是技术,造纸币是技术,技术本来就存在各个角落,你能看得到的东西都有科学原理技术支持,既想犯罪又想拿技术当挡箭牌,这么别扭你觉得你能搜到正确的东西吗?你想犯罪就直接搜怎么犯罪,不用搜怎么学技术。
    SoulClinic
        156
    SoulClinic  
    OP
       2022-02-27 00:53:04 +08:00
    @colinlp 这是搜索整理一下数据让用户更方便搜寻,没有涉及什么利益或者过量请求让对方服务器负担啊
    按照你的看法,谷歌早就犯罪得下十八层地狱了吧?
    mmg114514
        157
    mmg114514  
       2022-02-28 00:24:08 +08:00 via Android
    我的话会用 selenium 尽量仿真人操作 自动换 cookie 也可以用其他库实现
    SoulClinic
        158
    SoulClinic  
    OP
       2022-03-01 15:27:19 +08:00
    @mmg114514 这里用的 puppeteer 不更强吗?
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1359 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 23:35 · PVG 07:35 · LAX 16:35 · JFK 19:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.