V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Mrkon  ›  全部回复第 10 页 / 共 10 页
回复总数  185
1  2  3  4  5  6  7  8  9  10  
2017-12-05 11:39:38 +08:00
回复了 selfAccomplish 创建的主题 程序员 已有代理 IP 池,求一个做成本地服务的软件/脚本?
https://github.com/qiyeboy/IPProxy
或许可以给你参考
2017-11-30 18:13:19 +08:00
回复了 wvc 创建的主题 程序员 哎,好压也开始弹东西了。
看似免费,实则流氓
2017-11-30 10:00:00 +08:00
回复了 Mrkon 创建的主题 分享发现 如何管理爬虫代理 IP
@shuizhengqi
我想分享的是如何更好的使用代理 IP 池。语言表达不清楚,见谅。。。。原文一部分如下:
scrapy 提供下载中间件机制, 可以在请求队列与下载请求之间做一些动作. scrapy 本身也提供了一个 ProxyMiddleware, 但是它只能使用固定的 IP 地址, 由于免费的代理相当不稳定, 很多代理其实根本不能用. 因此需要对 ProxyMiddleware 改造使得这个 middleware 能够发现代理不可用, 并且在发现不可用的时候切换到另一个代理.
2017-11-28 11:45:23 +08:00
回复了 nladuo 创建的主题 分享创造 总结了几个识别简单验证码的方法
mark 请问一下
http://nladuo.github.io/bra/
中的数据采用可视化采用得到模块啊
2017-11-27 18:19:32 +08:00
回复了 zbl430 创建的主题 Python 中国裁判文书网 爬虫求助
解决问题主要在于表单中的 vl5x 参数与 guid 参数
其中通过 post guid 参数到 http://wenshu.court.gov.cn/ValiCode/GetCode 得到 number,在其出现 500 时
参数 number 为'number': 'wens'

对于 guid 参数可以通过:
import random
def guid():
return hex(int((random.random() + 1) * 0x10000))[3:]

对于 vl5x 参数可以通过:
链接: http://wenshu.court.gov.cn/List/List?最后的两个函数
var _fxxx = function (p, a, c, k, e, d).....
function getKey().....
其中 getKey()返回的就是 vl5x
运行 js 代码可以通过 python 的 PyV8 模块,附教程链接: http://blog.csdn.net/hanshileiai/article/details/51628173

但是:因为本人 js 不太会,其中 vl5x 参数是通过什么改变的,转化为 python 的代码是怎样的,希望大神能不吝赐教。
1  2  3  4  5  6  7  8  9  10  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2533 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 03:56 · PVG 11:56 · LAX 19:56 · JFK 22:56
Developed with CodeLauncher
♥ Do have faith in what you're doing.