V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  SlipStupig  ›  全部回复第 87 页 / 共 90 页
回复总数  1786
1 ... 79  80  81  82  83  84  85  86  87  88 ... 90  
2016-02-26 15:01:10 +08:00
回复了 aljun 创建的主题 Python 提高爬虫性能,都有什么奇技淫巧呢( python 方面)
如果单纯是性能的话,应该考虑几个方面
1.http 请求尽量采用 pool 的方式保持会话
2.尽可能避免重复 url 和重复页面的抓取
3.不要使用单一磁盘存储,尽可能用一些 Nosql 数据库或内存高速缓存(例如: redis/memcache )
4.降低存储部分冗余,提高存储效率,比如去除空格之类的,如果是二进制文件可以采用一些算法进行压缩存储
5.ajax 类型网站和 flash 网站, Parser 和 download 一定要分开, ajax 类网站的话可能需要考虑一下内存问题,如果使用 phantomjs 如果有可能最好能用 v8 去代替 jscore (过程十分的艰难,不要轻易尝试), 并且禁用安全检测,使用磁盘缓存(硬件方面能使用 ssd 最好了)
6.使用更快速的 dns 服务器,爬虫尽可能去缓存 dns 地址
7.多台机器性能一定高于单台机器
8.在条件允许的情况下用 pypy 代替 cpython 会更好

一些抓取遇到的反制问题
1.由于抓取频率过快,会被服务器认为是 ddos 攻击或爬虫抓取(有时候确实会让服务器宕机)
解决方案:使用代理进行绕过,并实现一些智能算法使爬虫更像人类(例如:一旦被 ban 掉自动切换代理,并减缓抓取速度,如果一定时间内没有被 ban 掉,则提高抓取速度,这样能自适应一个网站能承受的最大速度)
2.遇到验证码
解决方案:简单的验证码通过 hash 感知和一些简单的字模型匹配就能够解决,复杂验证码例如: recapture 这类可以靠人工去识别(有这种打码平台),如果是第二代验证码基于坐标位置的这类目前暂无解决办法

3.操作需要登录
解决方法:自己注册或购买账号,但是仍然可能可能会遇到问题 2 ,所以不继续说了,需要注意的是,某一些网站会通过一些特定元素的请求判断是是否是真实的登录,如果没有请求是无法成功的

4.异地登录需要验证
1.这种呢,能透露的就是尽可能不要异地登录,其它一些歪门邪道的方法不好说
2016-02-26 14:35:59 +08:00
回复了 zjxubinbin 创建的主题 云计算 阿里云真渣
请不要模仿我的主题好不
2016-02-25 23:20:10 +08:00
回复了 Tezign 创建的主题 酷工作 [上海]互联网公司 300 强公司 快来成为核心技术团队
请问中国互联网 300 强和重庆小面 30 强有什么关系?
2016-02-25 23:16:48 +08:00
回复了 SlipStupig 创建的主题 奇思妙想 胡说八道一个想法
@movtoy 你扔掉了就一分钱不值了啊,我有个体会,我爹让我去卖废品我嫌麻烦直接扔小区垃圾桶了,一堆废品才几十块钱要走好远,如果有人愿意上门收少给点钱都愿意,家里房子小实在放不下
2016-02-25 18:21:47 +08:00
回复了 Tezign 创建的主题 酷工作 [上海]互联网公司 300 强公司 快来成为核心技术团队
你那个 300 强是谁排的名啊
2016-02-25 18:19:34 +08:00
回复了 SlipStupig 创建的主题 奇思妙想 胡说八道一个想法
能不能回收一切不要的东西呢
@pimin
2016-02-25 10:29:28 +08:00
回复了 SlipStupig 创建的主题 程序员 大家来讨论一下你们遇到的奇葩项目或需求
@dongyado 怎么都没怎么,告诉他有一个东西叫 HTTP 代理下次记得用
2016-02-25 10:11:53 +08:00
回复了 niki 创建的主题 酷工作 [完成 C 轮融资大数据公司招聘] HR 直招各种研发职位
@niki 加了 qq 没通过啊
2016-02-25 10:11:09 +08:00
回复了 SlipStupig 创建的主题 程序员 大家来讨论一下你们遇到的奇葩项目或需求
以前做某流量项目由于域名配置错误结果流量没过来,于是公司决定造假数据,写了个程序去刷,结果手下的写了一个程序去跑由于我没去看那个程序,那个 ip 没用代理结果刷了 100 多万数据 ip 都一样结果被甲方通报了
2016-02-25 10:07:40 +08:00
回复了 linkbg 创建的主题 Python 关于 python 装饰器的理解请教一下大家
这个理解是不对的!就是在调用某个函数之前先调用装饰器函数, python 函数等于是个毛坯房装饰器等于一个毛坯房多了一盏灯,灯能干嘛不用我说了吧
2016-02-25 09:04:56 +08:00
回复了 SlipStupig 创建的主题 Python 编码挑战:求一千万自然数中质数和
@em70 很正确
2016-02-25 08:40:04 +08:00
回复了 steveway 创建的主题 奇思妙想 人生梦想之在浴室装音响
花钱买个潜水手机套,随便怎么泡
2016-02-25 08:32:43 +08:00
回复了 SlipStupig 创建的主题 奇思妙想 胡说八道一个想法
@Devin 已经有人做了,上门收换积分,积分换物品
之前有人问我微商怎么做,我回答很简单,先把货(牙膏、面膜、各种日化用品)给你所有亲戚朋友试用,只要他们介绍一个人,你就给他们上课,然后收 8888 的保证金说完成 xxx 任务就可以变成 88888 ,完成不了毕业后也会退还,然后就让他们给你拉下线,反正人是不能走的(至于怎怎么能不让他走有很多办法),如果中途退学需要交一定保证金(也是就是 8888 ,只能退 3500 ,根据具体情况来),如果有代理了,你就不停给他任务完成不了他会给你发展下线,然后你给他返点就行,然后二级代理完成不了任务可以过来上课,上课必须要交费,一级代理能得到推广收益的三层,二级代理推荐下线,可以减少学费,这么循环下去你马上就可以发家致富了
2016-02-25 08:13:54 +08:00
回复了 SlipStupig 创建的主题 Python 编码挑战:求一千万自然数中质数和
@msg7086 大整数加减有何不可,你代码够优秀放出来
2016-02-25 01:09:36 +08:00
回复了 XadillaX 创建的主题 分享创造 让我们一起来起花名吧
@XadillaX 之前公司为了造假数据做了一个这个玩意原理很简单
1.先整理出百家姓
2.整理出形容词、自然风景名称、天干地支
产生算法:
1.根据百家姓权重进行随机产生姓
2.然后根据时间产生名字

于是就出现了一些不错的名字:
诸葛奔雷 司马如风 张壬午 李江南,哈哈哈
2016-02-24 22:33:02 +08:00
回复了 niki 创建的主题 酷工作 [完成 C 轮融资大数据公司招聘] HR 直招各种研发职位
@niki 我一直都不肥你让我减肥
2016-02-24 21:50:03 +08:00
回复了 yuedingwangji 创建的主题 Linux 如何批量管理服务器?
大型企业用 zabbix 批量部署上去,安装 zabbix 可以用 scp 批量执行命令
2016-02-24 21:47:54 +08:00
回复了 SlipStupig 创建的主题 云计算 我是来专门吐槽阿里云的
@imnpc 有遇到过密集 IO 写入的时候写串的情况么?
1 ... 79  80  81  82  83  84  85  86  87  88 ... 90  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   988 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 39ms · UTC 22:58 · PVG 06:58 · LAX 14:58 · JFK 17:58
Developed with CodeLauncher
♥ Do have faith in what you're doing.