求指路淘宝爬虫姿势

求指路

感激不尽

指路

请问

68 replies • 2021-10-26 18:04:30 +08:00

1

lsylsy2

Oct 21, 2021

22

你的预算和法务都很难比阿里更充足

2

x86

Oct 21, 2021

4

阿里法务部希望你在年前可以做出来，这样好冲下 KPI

3

Xusually

Oct 21, 2021 via iPhone

1

Prison Oriented Programming

4

ByZHkc3

Oct 21, 2021

这是留下犯罪证据吗

5

kiracyan

Oct 21, 2021

吃牢饭的姿势?

6

defunct9

Oct 21, 2021

慢速 + 疯狂换代理，应该可以

7

Kiriya

Oct 21, 2021

爬虫写的好，牢饭吃到饱狗🐶

8

xiadd

Oct 21, 2021

雇人人工保存🐶

9

ixuuux

Oct 21, 2021 via iPhone

方法是有的，但是你要合规那没有

10

mxT52CRuqR6o5

Oct 21, 2021 via Android

@xiadd 雇人工手爬是最法律安全的，不过还是可能被反爬虫

11

eason1874

Oct 21, 2021

《面向法律编程》

@xiadd @mxT52CRuqR6o5 人工仅仅是访问合规，还有用途合规，这才是重点。要是用来盈利的，不管怎么收集都不会是合规的

12

johnsonshu

Oct 21, 2021

借楼问一下，爬某个网站合不合法，是不是看 robots.txt 就行啊？
有没有什么判断标准啊？

13

Jooooooooo

Oct 21, 2021

预算充足就人工搞呗.

十万个 10 天, 一天搞 1w, 雇 100 个人, 一人搞 100.

14

eason1874

Oct 22, 2021

18

@johnsonshu #12 法律很灵活，主要看你的财力和法务团队的能力。今日头条的历史就是一部爬虫与法律关系史。

1 、今日头条发家的时候肆无忌惮地采集，根据不管 robots.txt ，一律抓取放到自己网站，被百度、腾讯、微博等很多大网站和报纸起诉，一些和解转为合作，一些赔点钱。
2 、后来反过来，有个小公司采集今日头条的视频，几个主要人员被判刑和罚款，全国首例“爬虫”技术侵入计算机系统案。
3 、今日头条被微博 robots.txt 拉黑，他们还反过来起诉微博不正当竞争，2017 一审胜诉，2021 二审才改判败诉。

15

caicaiwoshishui

Oct 22, 2021 via iPhone

@eason1874 血压上来了

16

lilihangzhou

Oct 22, 2021

劝退，曾经爬过一小阵子淘宝有好货的文案，那个时候做爬虫还没什么法律风险，但是淘宝的反爬很厉害，爬了几万数据就被堵上了，

17

itechify

PRO

Oct 22, 2021 via Android

对接第三方吧？

18

supuwoerc

Oct 22, 2021

预算够的话直接上人工，手动保存，这样就没政策风险了🐶

19

lzs5240

Oct 22, 2021

阿里法务部已记录在案希望你赶紧行动

20

shanghai1943

Oct 22, 2021

1

莫非这帖子是阿里法务的钓鱼贴？

21

keventseng

Oct 22, 2021

做之前，先把“张三”请来当你的法律团队~

22

feelinglucky

Oct 22, 2021

这可真刑，真有判头

23

SmiteChow

Oct 22, 2021

爬虫写得好，牢饭吃得早。

24

tenserG

Oct 22, 2021

李四教会张三爬虫,张三爬取某大型网站非法获利被警方抓获,请问李四要承担什么责任⬅.⬅

25

chevalier

Oct 22, 2021

@tenserG 李四如果有指使张三爬某大型网站的行为，则是主犯，教唆犯
如果没有类似行为，则不需要承担责任

26

lithiumii

Oct 22, 2021 via Android

预算充足找第三方，直接百度搜，那几家都做广告的，对比一下。

27

4BVL25L90W260T9U

Oct 22, 2021

6

V 站里竟然也有整楼都是玩儿梗的帖子，服了。

楼主这种情况可以说几乎没有法律风险。10 万数量不大，而且商品信息本来就是公开可访问的，不是用户隐私信息。

从某种程度上来说，像淘宝这种垄断平台，应该有把自己信息开放的义务，否则淘宝才是不正当竞争。楼上你们这些人冷嘲热讽，真不知道是什么心态，嫌国内的技术氛围太好吗？

28

thetbw

Oct 22, 2021

像喵喵折那种，我看它数据还是蛮全的，不知道是怎么实现的。他们有个浏览器插件，难道是用户当肉鸡，去爬分析用户当前浏览的数据，返回给他们服务器？

29

lazyyz

Oct 22, 2021 via Android

非常具有可邢性

30

huyu

Oct 22, 2021

我以前写过，10 万数据不是很难，就是需要时间

31

LING97

Oct 22, 2021

学 Python 的时候爬过京东，几乎没啥反爬机制。淘宝就是爬不成功，各种被检测，然后就放弃了，也不是吃这口饭的

32

gengchun

Oct 22, 2021

1

@ospider 你这说法有误导，这个最多只是没有刑事风险。

民事风险当然是有的。

> 应该有把自己信息开放的义务，否则淘宝才是不正当竞争

这个理由确实不错，真的合规的话，你应该进行预防性诉讼，先去起诉淘宝不正当竞争，赢了以后再爬。除非你这么说没有任何意义。

你唯一说对的是，这个数量不大，阿里的法务应该懒得搭理，所以法律风险可以忽略不计。

33

doecho

Oct 22, 2021

爬虫是不能爬虫的，现在的淘宝限制得很死，单刚怎么干得过阿里的反爬团队

34

huanglongtiankon

Oct 22, 2021

只是爬 10 万难度应该不大，多换几个代理就是了

35

huanglongtiankon

Oct 22, 2021

而且这么点数量根本没什么法律风险的，阿里法务才没这么闲去管你

36

whusnoopy

Oct 22, 2021

@ospider 提一些反对意见，非杠

如果是未登录状态，不用几条就会遇上各种反爬的反制手段，不太确定技术上是否好解决
如果是登录状态，超出正常使用频度的访问应该也会被反爬，甚至暂时冻结账号，不知道有没准备足够的账号

信息的确应该开放互通，爬是一种办法，而且应该是迫不得已的办法，技术圈真正该做的是推动开放互通，有可以公开的获取渠道

37

aozhou

Oct 22, 2021

1

@ospider 终于有个说实在话的，不过国内这个环境确实太差了，太偏向大资本了。

38

ColinLi

Oct 22, 2021

能爬，但是刑不刑就看运气了

39

XD2333

Oct 22, 2021

预算充足的话不如去走接口吧，淘宝的爬虫的话，反爬太疯狂了，还有风险。

40

jabari

Oct 22, 2021

@ospider #27 赞同, 但是《非法侵入计算机信息系统罪》了解一下
具有下列情形之一的程序、工具，应当认定为刑法第二百八十五条第三款规定的“专门用于侵入、非法控制计算机信息系统的程序、工具”：　　
（一）具有避开或者突破计算机信息系统安全保护措施，未经授权或者超越授权获取计算机信息系统数据的功能的；　　
（二）具有避开或者突破计算机信息系统安全保护措施，未经授权或者超越授权对计算机信息系统实施控制的功能的；　　
（三）其他专门设计用于侵入、非法控制计算机信息系统、非法获取计算机信息系统数据的程序、工具。

41

ncepuzs

Oct 22, 2021

阿里系的反爬都比较丧心病狂
控制频率 + 代理池或许可以
但既然预算充足，不如外包

42

jeeyong

Oct 22, 2021

2

首先...你要学习如何编译 chromedriver. 然后要去掉哪些特征. $_cdc 这种基本无所谓了现在.
其次, 你要学会如何用 js 去伪造和去掉很多特征, 有些原生函数还要重写.
举个例子, 当你用 https 协议(ios 必须是此协议, http 不行.)获取设备的地理位置信息时, 可以尝试观察他的变化特征.
而你用爬虫的时候, 是否注意到这个问题. 这个例子仅限于移动设备模式, pc 端貌似不用考虑.
然后才考虑到代理, 行为模式这类问题.
我说的很含糊..因为这个技术弄明白了很香啊....
网上也基本不会有关于第一, 第二条的相关知识. 都闷着自己做事呢.

43

ws52001

Oct 22, 2021

换代理也是没啥用的，现在淘宝是要有 ID 登录才能访问商详，10W 这个数量级虽然很小，但你想顺利爬出来还是很费劲的。。另外阿里的类张三人物还是挺多的，跟你耗个几年估计都没啥问题。

44

daimaosix

Oct 22, 2021

刑，日子总算有判头了

45

nu11ptr

Oct 22, 2021

桌面 web 端正常使用都狂跳反爬，体验吊差

46

Felldeadbird

Oct 22, 2021

用浏览器扩展写爬虫。

但是，但是，但是。你正常人只浏览不购买。风控系统会锁定你的。

所以你要解决的就是怎样伪装成人。

47

gamexg

Oct 22, 2021

@ospider #27 风险还是有的，
淘宝授权里面应该不允许机器人抓取，
然后突破淘宝反爬虫系统会涉及到入侵计算机系统罪。

48

aababc

Oct 22, 2021

大家不知道还记不记得有一个叫巧达的公司

49

jiayong2793

Oct 22, 2021

写爬虫已经进去几个了，你还敢？

50

find456789

Oct 22, 2021

10w 的数据不算大，我几年前爬过卖家信息，那时候谷歌云服务可以免费领取，我开了大概 10 个机器，爬了大概可能有 100w （具体记不清，也可能是几十万）

你如果只要详情（文字信息）+ 图片地址，走默认渠道可能会有难度，因为他们的反爬比较变态，建议你找一下他们的 api 接口，速度会快很多

另外，淘宝有个开放平台， open.taobao.com 申请一个 app，然后申请权限后，就可以拿到很多商品信息

如果最后，你还搞不定，可以把你的需求和我详细说说（考虑到你说预算充足）

51

feiniu

Oct 22, 2021

需要买代理+ 账号

现在淘宝没账号，寸步难行

52

feiniu

Oct 22, 2021

商品详情现在风控很高

53

feiniu

Oct 22, 2021

@jeeyong 真大佬

54

xiaoluhi

Oct 22, 2021

1

@ospider 胖球数据据说就是阿里举报的，前段时间被端了的，爬的也是商品、价格、销量信息等等。
https://www.ixigua.com/7021106873096995358?wid_try=1

55

txx

Oct 22, 2021

1

商品详情有淘客的 API 啊...直接买 API 就行了...

56

jeeyong

Oct 22, 2021

@gamexg 破坏计算机信息系统罪及非法入侵计算机信息系统罪.

57

bybyte

Oct 22, 2021

日子越来越有判头了

58

jeeyong

Oct 22, 2021

我有社交牛逼症, 我再来多 BB 几句..
首先, 我没有任何业务是爬取淘宝的. 但是从技术角度做过验证, 发现可行. 仅此而已.
本文并未透露关于爬取淘宝的任何技术细节和技术方案, 旨在讨论人机识别技术.

淘宝在人机识别方面会更深入的做技术甄别, 通过发现更多的技术特征, 从而直接进行访问阻断或验证.
比如早期的时候, 他是我接触的相对较早去获取$_cdc 变量判断是否为爬虫的.
后来发展成为通过获取更多的特征, 来判断. 这应该是属于 v8 解析 js 的时候的引擎的特性吧? 我不太懂 js, 仅限于普通的应用层面. 我贴一部分代码, 看看做爬虫的时候, 你关注了多少.

var platform = 'iPhone'
var webdriver = false
var standalone = false
var maxTouchPoints = 5
var cookieEnabled = true
var productSub = 20030107
var product = "Gecko"
var vendor = "{vendor}"
var vendorSub = ""
var onLine = true
var hardwareConcurrency = undefined
var oscpu = undefined
var cpuClass = undefined
var doNotTrack = undefined
var getBattery = undefined
var storage = undefined
var systemLanguage = undefined
var permissions = ["geolocation", "notifications"]
var bluetooth = undefined
var standalone = undefined
var userAgent = "{userAgent}"
var shanghai = {{"longitude": 0, "latitude": 0}}
var zhongshan = {{"longitude": 0, "latitude": 0}}
var hangzhou = {{"longitude": 0, "latitude": 0}}

这些变量大部分是系统内置的变量, 在你加载页面的时候他就有了...
但是改变他的时候不能直接赋值, 这个 JS 大佬应该更清楚, 我只是知道...
需要通过 Object.defineProperty 方法去改变...

小朋友太闹了...我得哄娃去了..哈哈哈

59

jeeyong

Oct 22, 2021

1

@jeeyong 小朋友吃饭去了..
除此之外, 还可以通过 crx 插件及 js 的方式去替换掉显卡的特征..
但这些做法相对比较局限, 大规模爬取的时候还是很容易被识别出来...
相对来说, 淘宝有个好处是, 他发现你是人机, 他会要求你验证..
但是像百度, 他只是在后台默默的标记上本次访问无效...这个很难受的.
还有字节, 他是直接不给你内容, 抑或是使用蜜罐类的技术防止你爬取.
有些网站甚至发现你是爬虫后, 直接给你假的, 没有意义的内容...
我想转行...有大佬收留吗?哈哈哈
相比技术, 我也挺擅长销售和管理的...