V2EX › Marsss 的所有回复 › 第 4 页 / 共 6 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6

❮

❯

2019-02-23 22:11:02 +08:00

回复了 sky78908 创建的主题 › Python › 学 Python 有什么入门建议

找工作还是学 java 吧，python 基本上就是直接用，不记得就去查。

2018-12-24 13:47:18 +08:00

回复了 hicdn 创建的主题 › 分享发现 › 很暴力的反爬虫机制

@kw 这帖子都过了多久了，已经不写爬虫了。我当时解决的思路就是直接用 chrome 提供的接口去驱动 chrome 抓取，使用 websocket 协议通信，使用 javascript 控制浏览器行为，具体可以看一下 chrome 的远程调试协议。这些工作原本是 selenium 替你做了，只是现在人家针对性的检测了 selenium|webdriver，造成直接用 selenium 的抓取不了。

另外，友情提示一下，爬虫有风险，劝君别盲目背锅。

2018-12-19 08:19:18 +08:00

回复了 zkeeper 创建的主题 › 程序员 › 每天辛苦玩命工作的意义是什么?

找个甲方公司上班吧，没那么多加班，不过工资就别想多了。

2018-12-18 12:45:58 +08:00

回复了 wszbdyyy 创建的主题 › 程序员 › 程序员是咋想的呢

呵呵，说了半天，我以为投资人让他把技术裁了的时候，他会怎么样了，还不是毫不留情的把人给裁了。自己首先就不懂得感恩，这是在道德制高点上找安慰了？我建议他拿镜子好好照照自己，看看自己到底是个什么东西，没有当初的技术合伙人，有现在的悠闲的他？什么玩意儿。

2018-11-21 13:04:22 +08:00

回复了 snoopy1024 创建的主题 › Python › 用 Python 处理这种验证码有没好的点子？

对了，对于你这种验证码，如上图连在一起的，直接从中间分开就行了，不会差很多，对于单个字符，只要你人能认出来，多层感知器训练后认出来没问题。大不了就跳过，从新刷新一张。识别成功率能到 50%就能用了。

2018-11-21 13:00:14 +08:00

回复了 snoopy1024 创建的主题 › Python › 用 Python 处理这种验证码有没好的点子？

你或许需要一些 hacker 思维，寻找干扰线与正常字符之间的差别规律，然后针对这个规律写处理代码。其实还挺有意思的，这是测试效果：
http://wx3.sinaimg.cn/large/824504dbgy1fxfl8s144rj204g014dfo.jpg
http://wx2.sinaimg.cn/large/824504dbgy1fxfl8vlx3rj204g014dfq.jpg
http://wx1.sinaimg.cn/large/824504dbgy1fxfl8yftckj204g014dfq.jpg
http://wx2.sinaimg.cn/large/824504dbgy1fxfl91zfhoj204g0143y9.jpg

只要能做到有效分割，也就基本意味着破解成功了，分割之后大概只需要标注 100 张左右，这点体力活比起直接用 CNN 撸（需要标注上万张）还是很容易接受的，后面再随便在 sklearn 里挑一个算法来训练就行了。

2018-11-19 12:40:40 +08:00

回复了 snoopy1024 创建的主题 › Python › 用 Python 处理这种验证码有没好的点子？

好的点子就是悬赏。。。出个 500、800 的，问题就解决了。。。

2018-10-16 09:30:37 +08:00

回复了 whereabouts 创建的主题 › 程序员 › 英文+数字图片验证码识别的项目有熟悉的朋友接一下吗

做过的应该都知道难点在训练集的标注，要到这个识别率，训练集估计得 10 万了，如果哪位接了，需要标注的倒是可以找我，刚好家里有俩闲着的苦力，哈哈。如果楼主找不到人，也可以找我试试。微信 cm9ja3JvYWQxOTgy==

2018-08-21 15:44:03 +08:00

回复了 kmdd33 创建的主题 › Python › 这段 Python 代码中，解释器如何能理解到 i 代表的是 h 中的各个元素呢？一开始也没有定义啊？

为什么我觉得完全不困惑。。。range(len(xxx)) 这就决定了数据类型啊。

2018-08-16 13:54:03 +08:00

回复了 Marsss 创建的主题 › Python › tqdm 库在 windows 的 cmdshell 下，为什么进度条不是一条直线，样式可以修改吗？

@Trim21 好像暂时只能用你说的 ascii=True，换成#号样式了，虽然丑了点，至少是直的。。。

2018-07-23 11:27:14 +08:00

回复了 hanwang 创建的主题 › 程序员 › 35 岁左右的码农你们都还在搞技术吗？

知乎上那些辛辛苦苦转 CS 的人不知道会怎么想

2018-06-25 09:08:28 +08:00

回复了 cryptonym 创建的主题 › 程序员 › 我可能是一个情商非常低的人

首先，你该考虑跳槽了。

然后，要说起来情商低，绝壁你这个所谓的人事部经理情商低，无论对错，这样处理问题，简直荒唐。这样的人也能在你们公司做到经理，也说明了你所在的这个公司不怎么样。

最后，加油，小伙子，很多事情无论对错，都有一个底线，超越这个底线，你就应该表明你的态度，先不说你情商是否低，你的胆气是有点弱了，对方对你不断的叠加嘲讽，这种垃圾，你惯他毛病？

2018-06-22 08:43:10 +08:00

回复了 norain 创建的主题 › 程序员 › 写爬虫的要小心罗，爬数据要被判刑滴

照这么说，浏览器翻页点快了也要被判刑了。

2018-06-19 11:06:16 +08:00

回复了 wsds 创建的主题 › Python › 大家都用什么编辑器写 Python ？

简便一点的 editplus 也行

2018-06-19 11:04:41 +08:00

回复了 banxi1988 创建的主题 › 程序员 › 其实我也是一个工程师：软件工程师

呵呵，看来不太了解工程类的工程师，实际上没你想的那么高深。

2018-01-24 12:22:23 +08:00

回复了 ppbaozi 创建的主题 › 程序员 › 我的微信网页版收不到消息了

@ppbaozi 用这个 itchat 很容易被封吗，最近正想玩一玩这个，是频率太快会被封，还是用了就会被封呢。

2017-12-21 11:05:59 +08:00

回复了 Marsss 创建的主题 › Android › 用 HttpURLConnection 如何读取较大的数据流？

野生码畜爬坑小记：

又花了一天的时间来爬这个坑，暂时算是爬出来了。把一些东西写在这里，也许会有人需要参考。

首先，我图中的代码不严谨:
response.append(new String(b)) 这里由于 read(b)函数的特性，并不能保证每次都能填满 b 这个字节组，如果在某次循环中，read(b)只更新了 b 的一部分值，另外一部分值则还保留了上一次的值，这样 append 到 response 里，会出现问题。

那么我们应该读到多少就 append 多少才行，改成这样：
response.append(new String(b，0，len, charset))

然而这个优化并没有解决我遇到的问题，我的程序在 debug 的时候依然还是只能读到一部分数据就跳异常了，我突然想到我之前使用的本机的浏览器测试访问正常的，那么直接使用模拟器的浏览器去访问呢，结果让我很意外，genymotion 模拟器自带的浏览器竟然也只读取到了一部分值，这 TM 至少说明了，也许我的代码并没有什么大毛病，可能是环境引起的问题。

于是我在网上随便下载了一个雷电模拟器，用它自带的浏览器能正常获取到数据。于是直接使用这个雷电模拟器来 debug，这次终于正常了。。。看来被各种推荐的神器 genymotion 在 win 环境下也是可能存在一些问题的啊，MD，折腾了好几天了。

另外，我觉得我这个帖子的问题可能问的有点不对，我其实并不需要知道怎么去用 httpurlconnection 读取一个较大的数据，不过我在搜索资料的过程中，可能对这个问题有一些思路，也顺便写在这里吧。

我们其实可以在我们的服务端的 response 里面加一个 Accept-Ranges: bytes 栏，这样客户端就可以使用多线程分段请求的方式来读取这个大文件了，既解决了数据过大引起的读取差错，又提高了读取效率。详见 http 协议。

看来还是不能太浮躁，心想着用了几天 python，Java 看都不看，撸起袖子就抄代码，终究还是要吃亏。

就这样吧，谢谢各位。

1 2 3 4 5 6

❮

❯