V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Marsss  ›  全部回复第 4 页 / 共 6 页
回复总数  106
1  2  3  4  5  6  
2019-02-23 22:11:02 +08:00
回复了 sky78908 创建的主题 Python 学 Python 有什么入门建议
找工作还是学 java 吧,python 基本上就是直接用,不记得就去查。
2018-12-24 13:47:18 +08:00
回复了 hicdn 创建的主题 分享发现 很暴力的反爬虫机制
@kw 这帖子都过了多久了,已经不写爬虫了。我当时解决的思路就是直接用 chrome 提供的接口去驱动 chrome 抓取,使用 websocket 协议通信,使用 javascript 控制浏览器行为,具体可以看一下 chrome 的远程调试协议。这些工作原本是 selenium 替你做了,只是现在人家针对性的检测了 selenium|webdriver,造成直接用 selenium 的抓取不了。

另外,友情提示一下,爬虫有风险,劝君别盲目背锅。
2018-12-19 08:19:18 +08:00
回复了 zkeeper 创建的主题 程序员 每天辛苦玩命工作的意义是什么?
找个甲方公司上班吧,没那么多加班,不过工资就别想多了。
2018-12-18 12:45:58 +08:00
回复了 wszbdyyy 创建的主题 程序员 程序员是咋想的呢
呵呵,说了半天,我以为投资人让他把技术裁了的时候,他会怎么样了,还不是毫不留情的把人给裁了。自己首先就不懂得感恩,这是在道德制高点上找安慰了?我建议他拿镜子好好照照自己,看看自己到底是个什么东西,没有当初的技术合伙人,有现在的悠闲的他?什么玩意儿。
2018-11-21 13:04:22 +08:00
回复了 snoopy1024 创建的主题 Python 用 Python 处理这种验证码有没好的点子?
对了,对于你这种验证码,如上图连在一起的,直接从中间分开就行了,不会差很多,对于单个字符,只要你人能认出来,多层感知器训练后认出来没问题。大不了就跳过,从新刷新一张。识别成功率能到 50%就能用了。
2018-11-21 13:00:14 +08:00
回复了 snoopy1024 创建的主题 Python 用 Python 处理这种验证码有没好的点子?
你或许需要一些 hacker 思维,寻找干扰线与正常字符之间的差别规律,然后针对这个规律写处理代码。其实还挺有意思的,这是测试效果:
http://wx3.sinaimg.cn/large/824504dbgy1fxfl8s144rj204g014dfo.jpg
http://wx2.sinaimg.cn/large/824504dbgy1fxfl8vlx3rj204g014dfq.jpg
http://wx1.sinaimg.cn/large/824504dbgy1fxfl8yftckj204g014dfq.jpg
http://wx2.sinaimg.cn/large/824504dbgy1fxfl91zfhoj204g0143y9.jpg

只要能做到有效分割,也就基本意味着破解成功了,分割之后大概只需要标注 100 张左右,这点体力活比起直接用 CNN 撸(需要标注上万张)还是很容易接受的,后面再随便在 sklearn 里挑一个算法来训练就行了。
2018-11-19 12:40:40 +08:00
回复了 snoopy1024 创建的主题 Python 用 Python 处理这种验证码有没好的点子?
好的点子就是悬赏。。。出个 500、800 的,问题就解决了。。。
2018-10-16 09:30:37 +08:00
回复了 whereabouts 创建的主题 程序员 英文+数字图片验证码识别的项目 有熟悉的朋友接一下吗
做过的应该都知道难点在训练集的标注,要到这个识别率,训练集估计得 10 万了,如果哪位接了,需要标注的倒是可以找我,刚好家里有俩闲着的苦力,哈哈。如果楼主找不到人,也可以找我试试。微信 cm9ja3JvYWQxOTgy==
为什么我觉得完全不困惑。。。range(len(xxx)) 这就决定了数据类型啊。
@Trim21 好像暂时只能用你说的 ascii=True,换成#号样式了,虽然丑了点,至少是直的。。。
2018-07-23 11:27:14 +08:00
回复了 hanwang 创建的主题 程序员 35 岁左右的码农你们都还在搞技术吗?
知乎上那些辛辛苦苦转 CS 的人不知道会怎么想
2018-06-25 09:08:28 +08:00
回复了 cryptonym 创建的主题 程序员 我可能是一个情商非常低的人
首先,你该考虑跳槽了。

然后,要说起来情商低,绝壁你这个所谓的人事部经理情商低,无论对错,这样处理问题,简直荒唐。这样的人也能在你们公司做到经理,也说明了你所在的这个公司不怎么样。

最后,加油,小伙子,很多事情无论对错,都有一个底线,超越这个底线,你就应该表明你的态度,先不说你情商是否低,你的胆气是有点弱了,对方对你不断的叠加嘲讽,这种垃圾,你惯他毛病?
2018-06-22 08:43:10 +08:00
回复了 norain 创建的主题 程序员 写爬虫的要小心罗,爬数据要被判刑滴
照这么说,浏览器翻页点快了也要被判刑了。
2018-06-19 11:06:16 +08:00
回复了 wsds 创建的主题 Python 大家都用什么编辑器写 Python ?
简便一点的 editplus 也行
2018-06-19 11:04:41 +08:00
回复了 banxi1988 创建的主题 程序员 其实我也是一个工程师:软件工程师
呵呵,看来不太了解工程类的工程师,实际上没你想的那么高深。
2018-01-24 12:22:23 +08:00
回复了 ppbaozi 创建的主题 程序员 我的微信网页版收不到消息了
@ppbaozi 用这个 itchat 很容易被封吗,最近正想玩一玩这个,是频率太快会被封,还是用了就会被封呢。
2017-12-21 11:05:59 +08:00
回复了 Marsss 创建的主题 Android 用 HttpURLConnection 如何读取较大的数据流?
野生码畜爬坑小记:

又花了一天的时间来爬这个坑,暂时算是爬出来了。把一些东西写在这里,也许会有人需要参考。

首先,我图中的代码不严谨:
response.append(new String(b)) 这里由于 read(b)函数的特性,并不能保证每次都能填满 b 这个字节组,如果在某次循环中,read(b)只更新了 b 的一部分值,另外一部分值则还保留了上一次的值,这样 append 到 response 里,会出现问题。

那么我们应该读到多少就 append 多少才行,改成这样:
response.append(new String(b,0,len, charset))

然而这个优化并没有解决我遇到的问题,我的程序在 debug 的时候依然还是只能读到一部分数据就跳异常了,我突然想到我之前使用的本机的浏览器测试访问正常的,那么直接使用模拟器的浏览器去访问呢,结果让我很意外,genymotion 模拟器自带的浏览器竟然也只读取到了一部分值,这 TM 至少说明了,也许我的代码并没有什么大毛病,可能是环境引起的问题。

于是我在网上随便下载了一个雷电模拟器,用它自带的浏览器能正常获取到数据。于是直接使用这个雷电模拟器来 debug,这次终于正常了。。。看来被各种推荐的神器 genymotion 在 win 环境下也是可能存在一些问题的啊,MD,折腾了好几天了。

另外,我觉得我这个帖子的问题可能问的有点不对,我其实并不需要知道怎么去用 httpurlconnection 读取一个较大的数据,不过我在搜索资料的过程中,可能对这个问题有一些思路,也顺便写在这里吧。

我们其实可以在我们的服务端的 response 里面加一个 Accept-Ranges: bytes 栏,这样客户端就可以使用多线程分段请求的方式来读取这个大文件了,既解决了数据过大引起的读取差错,又提高了读取效率。详见 http 协议。

看来还是不能太浮躁,心想着用了几天 python,Java 看都不看,撸起袖子就抄代码,终究还是要吃亏。

就这样吧,谢谢各位。
1  2  3  4  5  6  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   886 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 21:43 · PVG 05:43 · LAX 13:43 · JFK 16:43
Developed with CodeLauncher
♥ Do have faith in what you're doing.