今天偶然逛了逛 GITHUB 发现个项目,由此发现一种爬虫的新姿势.
GITHUB 地址如下: https://github.com/thorn5918/tianyancha
追踪到另一个人的 csdn 博客,也就是我最感兴趣的东西。 地址如下: https://blog.csdn.net/ggl1438/article/details/102837903
一、天眼查 8.5 版本的 app 可以抓包
二、当测试加密值可以使用的情况下,二次利用加密值
三、利用自动化神器 Autojs 来驱动 app 点击等操作,产生新的请求,从请求中拿到加密值
以上就是思路,可是我搭建过程中发现几个事情。
1.天眼查服务器会不响应我的请求,换个 ip 就行。
2.天眼查 app 会存在进程杀不死的情况,我多开 app 造成手机卡死,于是乎想到可以利用开发者模式限制只有几个进程运行。
1
dreamerlv3ex 2019-11-21 15:19:05 +08:00 1
思路很棒,爬虫需小心
|
2
spiderGgl OP 他这思路很牛,还开放了个接口,正在跟他谈兼职的事情。
爬虫的生存空间越发狭小。 |
3
opengps 2019-11-21 15:26:27 +08:00 via Android
爬虫要把爬虫爬死的感觉😀
|
5
Randall 2019-11-21 15:35:29 +08:00
聪明
|
6
springGun 2019-11-21 15:37:07 +08:00
哥们,你不会是我前同事吧?bz
|
7
Vegetable 2019-11-21 15:37:13 +08:00
和我现在做的项目思路一样的,我觉得一点也不高端,是在实在走投无路的情况下才选择的这套方案
"这签名太难搞了,还是模拟 /代理吧" 手机端是 adb shell am start shcema://path 的方式或者其他效率低一些的自动手段,客户端代理到 mitmproxy 或者 anyproxy 之类的代理服务器上,监听网络请求,盗用签名或者直接通过这种低效的方式获取数据. pc 网页的签名如果实在破不了的话,也可以折中用浏览器+外部 js(油猴 /代理注入 /selemium 执行). 这套方案的优势是工作量小,缺点就是效率太低了 |
8
Vegetable 2019-11-21 15:41:08 +08:00
哦,我们手机还是基于 asyncio+adb 的集群呢 /狗头
|
9
spiderGgl OP |
10
Vegetable 2019-11-21 15:47:01 +08:00
@spiderGgl 破解 app 听起来美好,但是变换加密策略的成本比破解的成本低多了,生产上的东西很担心突然不能用,这套方案虽然效率低,但是可用性的确是能得到保证.
|
11
ClericPy 2019-11-21 15:49:09 +08:00
逆向 app 拿签名虽然不太麻烦, 就是要进去坐 2 到 5 年有点费时间
|
12
moult 2019-11-21 15:49:36 +08:00
本是同根生,相煎何太急!
|
13
apktool 2019-11-21 15:53:04 +08:00
爬虫现在 非正常的抓取都有可能进去,特别是破解,法务对这个都声明好几次,祝好
|
14
spiderGgl OP |
16
ClericPy 2019-11-21 16:05:10 +08:00
@spiderGgl #14 很多东西, 民不告官不究, 我只是说前面那些提到逆向的人, 你给的这套是常规自动化加中间人的, 以前用过类似的真机上用 adb 唤起拿 token 的方式, 一个原理, 不过用的是 tasker 写出来的 app. 现在爬虫不好干, 赶紧转行溜了, 想起以前别人的那句: 爬虫难不是难在怎么抓的快, 难在怎么抓的慢... 亏我之前各种调研哪个 http 库性能高, 发现 aiohttp 有 C 加成超过很多其他的库, 然后 golang 的内置库又给我刷新三观... 溜了
|
17
szpShang 2019-11-21 16:07:57 +08:00
1.登陆天眼查网站
2.破解滑动验证码 3.输入免费短信的手机号。 4.从免费短信网站中抓取验证码 5.登入网站 6.搜索需要的企业 7.抓取相关的信息 重复 6-7 操作 隔半个小时 8.主动退出 9.停止服务 10.重拨宽带账号切换 ip 11.启动服务 从 1 的操作重新执行 已经退出爬虫圈,怕被抓。 |
18
murmur 2019-11-21 16:11:49 +08:00
天眼查前几天还在招爬虫工程师,为什么他就不担心被起诉
|
20
passerbytiny 2019-11-21 16:22:09 +08:00
动机:获取别人加密(即不想让你获取)的数据。
手段:自动化程序模拟自然人操作,并且在服务器封禁 IP 后更换 IP 继续。 如果拿到的数据又没在 24 小时只能删除的话,证据够了。 |
21
googoehl 2019-11-21 16:24:58 +08:00
真的会包吃包住的(牢底坐穿)!!!!!不要瞎搞了, <信息破坏罪>
|
22
jestgossip 2019-11-21 16:30:01 +08:00
“追踪到另一个人的 csdn 博客,也就是我最感兴趣的东西” ggl1438
楼主昵称 spiderGgl 我怎么觉得这么有意思呢 |
23
spiderGgl OP @jestgossip 老哥,你这样就没得意思了
|
24
Yogpre 2019-11-21 18:50:04 +08:00
爬虫写得好,牢饭吃到饱
|