V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 28 页 / 共 189 页
回复总数  3761
1 ... 24  25  26  27  28  29  30  31  32  33 ... 189  
适用场景?
@ariza #19
马六甲王朝首位君主就是郑和扶植的,脱离了古泰国(暹罗?)统治独立建国,纪念郑和就很正常了
大马算相对友好的,华裔很多;那在暹罗眼中呢?

下西洋后,明清很多华人知道了解了东南亚,不少向海外拓展并定居,这些人其中不少到当地,凭借技术和资金,占据社会中上层,二战前后,华人占据社会中上层比例,东南亚比其他地区高出不少,这对当地人来说,一个外来族群维持特定风俗和语言,它始终就是“外人”,尤其外人成为“主人”时,就更难受了
65 天前
回复了 dawnzhu 创建的主题 程序员 Python 中 super 用法
语法没有错误,意义就要看应该放在哪一行
国产不太热门的种子,超过两周,就要靠迅雷了,仅靠 bt 软件非常难下
65 天前
回复了 ota 创建的主题 Python 求 Python 初学者书籍推荐
cookbook
66 天前
回复了 jerrypp 创建的主题 生活 车贷没谈拢,狗销售给我退订金了
年化 9 是怎么算出来的?
66 天前
回复了 Fdyo 创建的主题 微软 Microsoft Copilot 已经支持中国
copilot 还会反过来问我问题,真・聊天?
@Mystery0 #31
不是这个意思
例如三个用户都请求相同的 A 页面(同一个课程表什么的),但在服务器方看来,就是贵司一个 ip 对 A 请求了三次;所以这三个 A 的请求,最好能减少到一次,另两个以缓存返回给用户
@Mystery0 #29
这样说就比较明显了,要么就是对方反爬,要么就是对方机器也抗不住了

整体看下来,你们不是一个主动爬虫,就是不会游走爬取“未知”的内容,更像是个数据代理,把客户请求及爬取返回内容优化?
如果内容有大量重复,建议按规则做缓存,减少爬取次数
当然,缓存要准确,不然就相当于你们“制造”了错误数据,信用断崖下降了;而且缓存的内容涉及隐私的话,还要凭良心“加密”才缓存
“大量”是个虚词
先说有没有成功的,还是全部都出错
如果并非全部出错,成功的数量也不少,不是零零星星几个的话,代码应该没问题,更多是链路中间的问题

现在的 web 服务器,没有反爬的话,都不像话
你这里写的都是些很基础的爬虫知识,也不晓得你有没有做高级抗反爬
现在很多都是 cdn 反爬,例如 cf 的五秒盾,很难破,基本需要降频,高频就需要不断变换 ip ,另外还有客户端生成 token 这些,都需要让客户端抗指纹

这里还有一个重点你没说,既然是需要登录,是有大量帐号么?还是帐号都是用户自己的?
如果都是贵司提供,不断复用,被风控那基本都是秒级的事,能爬几年真是不可思议
@HeyCaptainJack #9
参考力拓案
还是花钱吧,一不小心还可能碰了国家机密
PS: 我广州的,大部分发票是“广州晶东”,没错,就是水晶的晶
你放上来的两张发票,销售方就不同,你细看
给你个提醒:
web/app 的京东不是销售东西给你的京东,虽然都是京东集团旗下,但各自独立核算的
价格保护或者 plus 之类的东西应该只是前者给的,后者不管这个,发票是后者

再给个提醒:
京东金融,白条之类的,跟上述又不同,也是独立核算的

有先例,若干年前有人打官司告电商平台京东,被告知告错了,要告发票上的那个京东,搜搜应该能搜到这事
1 ... 24  25  26  27  28  29  30  31  32  33 ... 189  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1013 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 45ms · UTC 20:12 · PVG 04:12 · LAX 12:12 · JFK 15:12
Developed with CodeLauncher
♥ Do have faith in what you're doing.