这两周,我们做了一个目前来看非常易用的云爬虫:
现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。
1
lins 2016-11-26 17:38:37 +08:00 1
能分页爬嘛?
|
2
GrahamCloud OP @lins 可以啊,修改规则里面。
|
3
greatghoul 2016-11-28 14:42:10 +08:00 1
楼主选择页面的标签的那个功能能开源吗?好喜欢。
|
4
tokoy 2016-11-28 14:46:11 +08:00 1
蛮酷的 主要用啥语言爬的?
|
5
GrahamCloud OP @greatghoul 暂时不能,哈哈,还要完善。
|
6
wujunze 2016-11-28 17:18:35 +08:00 1
上周已经试用了
|
7
exalex 2016-11-28 17:48:44 +08:00 2
感觉好牛逼,特别是交互酷炫
|
8
tumbzzc 2016-11-28 18:57:45 +08:00 1
“执行出错”,能不能把出错信息贴出来?
|
9
wshedu 2016-11-28 19:02:28 +08:00 1
|
10
carlding123 2016-11-28 19:03:32 +08:00 1
每太用明白,选择规则时候点框框是什么意思,关键词么?没点击就选上了,选上还有时候取消不了,并且一个链接很多的页面好像并没有爬其他的页面呢...并且分析报告也没看懂,有没有文档啥的额...
|
11
misaka20038numbe 2016-11-28 19:04:46 +08:00 1
测试了一下,被我的博客防镜像拦截了.说明有些加了保护的网站也是爬不了的.
|
12
GrahamCloud OP @tumbzzc 如果告诉我您的邮箱,我们后台帮您排查一下
|
13
GrahamCloud OP @wshedu 欢迎加我的微信, Zaoshuio
我们想了解能不能做到更多个性化的要求。 |
14
GrahamCloud OP @carlding123 分页是目前最大的问题,我们争取这周能拿出一个好的方案来。
|
15
GrahamCloud OP @misaka20038numbe 我们是模拟了一个浏览器在访问,求加微信 Zaoshuio
|
16
billyellow 2016-11-28 20:10:48 +08:00
蛮有意思的,支持支持
|
17
misaka20038numbe 2016-11-28 22:11:45 +08:00 1
@GrahamCloud 原来是用了框架,怪不得.我不怎么用微信.
|
18
wshedu 2016-11-28 22:48:49 +08:00 1
@GrahamCloud 已添加微信。就是我这个帐号
|
19
GrahamCloud OP @misaka20038numbe 给的意见非常宝贵,感谢。
|
20
GrahamCloud OP @wshedu 白天就加,手机拉下了。
|
21
cougar 2016-11-29 09:53:16 +08:00 1
说实话,真的很酷
|
22
cougar 2016-11-29 09:54:23 +08:00 1
不过我要的数据貌似是没获取到
|
23
GrahamCloud OP @cougar 求问是什么数据,能帮到最好。
|
24
cougar 2016-11-29 11:42:21 +08:00 1
@GrahamCloud 我现在页面提示一直在执行中有一小时了,我的账号是 cougar999 ,在 gmail.com ,你应该能看到吧
|
25
GrahamCloud OP @cougar 看到了,在解决。
|
26
kenshinhu 2016-11-29 12:10:22 +08:00 1
哦,使用示例这里有拉勾的中山区域连接的? 这个怎样实现的?
|
27
GrahamCloud OP @kenshinhu 结合定位。
|
28
GrahamCloud OP @cougar 方便的话加下微信或者首页客服里聊聊吧,好像还在卡。认真解决一下。
|
29
jaylong 2016-11-29 17:27:42 +08:00 1
邮件 token 非法
|
30
GrahamCloud OP 感谢!
|
31
yu550461029 2016-11-30 11:12:42 +08:00 1
打算爬一下国家统计局的行政区划,感觉不大会用呢
|
32
GrahamCloud OP @yu550461029 想爬什么样的,具体说说?
|
33
GreatMartial 2016-11-30 11:25:29 +08:00 via Android 1
支持,有空体验一下
|
34
blackFool 2016-12-01 12:00:53 +08:00 1
界面交互不错,爬爬微信公号
|
35
quericy 2016-12-02 15:14:31 +08:00 1
页面元素只能选取,不能直接交互:
http://www.huipinzhe.com/nanzhuang?page=1 遇到有全屏遮罩的还得手动 F12...... 如果有的页面需要一系列操作 JS 拼接的数据,是不是就无法采集? |
36
GrahamCloud OP @quericy 因为上新 ui 的缘故,完成创建的步骤今天卡住了,采集方面,应该是能支持的。
|
37
quericy 2016-12-02 15:22:01 +08:00 1
|
38
GrahamCloud OP @quericy 这个坑确实是有点大,现在还在解决。欢迎加微信: Zaoshuio
|
39
saber000 2016-12-04 02:25:16 +08:00 1
没有 api 吗
|
40
GrahamCloud OP @saber000 这是这两周的安排。
|
41
GrahamCloud OP @saber000 api 需求欢迎提交给我,微信 Zaoshuio
|
42
lakewong 2016-12-12 15:06:55 +08:00 1
|
43
GrahamCloud OP @lakewong 不不,不能爬首页,对于知乎,将来可以通过 api 来搞。
首页的示例里,链家,拉钩这样的,是我们的主要应用场景。 |
44
xvx 2016-12-12 15:29:56 +08:00 via iPhone 1
域名早熟?
|
45
GrahamCloud OP @xvx 晚熟,晚熟。
|
46
mingyun 2016-12-12 23:27:15 +08:00
厉害了我的哥,赶紧去看看
|
47
baiyi 2016-12-14 14:35:22 +08:00 1
下回节点能放在推广吗
|
48
9hills 2016-12-14 14:48:53 +08:00 1
试试爬一下多看电子书,自己爬比较麻烦的是代理池、防抓取等还需要自己做
|
49
GrahamCloud OP @baiyi 其实倒真不是推广,是诚心来探讨聊天来着。推广肯定会买广告位,现在产品不成熟还是求意见聊场景的阶段。
|
50
baiyi 2016-12-14 15:22:22 +08:00 1
@GrahamCloud 嗯 加油做一个好产品!
|
51
9hills 2016-12-14 15:34:36 +08:00 1
失败了,这个失败都没有地方 debug 。。。
就一个执行失败。。。我还是老老实实的用 scrapy 吧<_< |
52
hakulamatata 2016-12-14 15:37:29 +08:00 1
指哪爬哪能做到就已经能够很好了
|
53
GrahamCloud OP @9hills 我去后台看下啥情况。求告知邮箱
|
54
9hills 2016-12-14 17:26:37 +08:00 1
|
55
GrahamCloud OP @9hills 为了易用, debug 暂时不能给使用者,现在只能我们尽量帮 debug
|
56
GrahamCloud OP @hakulamatata 产品上问题还特别特别多
|
57
GrahamCloud OP @hakulamatata 看哪不好随时说。
|
58
haigeek 2016-12-16 15:40:30 +08:00 1
没人试试高校的教务管理系统吗? aspx 页面,某果,界面是空白的。
|
59
GrahamCloud OP @haigeek 求告知网址!
|
60
haigeek 2016-12-16 16:45:13 +08:00 1
@GrahamCloud http://kmustjwcxk1.kmust.edu.cn/jwweb/ 这个是登录地址,是需要账户和密码的。
http://kmustjwcxk1.kmust.edu.cn/jwweb/MAINFRM.aspx 这个是登录上去的 但是我怕你还是打不开 但是你看后缀是 aspx 的,在页面直接是没有右键选项的。这个管理系统是青果,似乎国内用的也不少,听说是便宜。可以根据信息参考下。 |
61
iammapping 2016-12-16 16:47:12 +08:00 1
能不能设置规则,爬完列表下钻到详细页爬其他信息
|
62
GrahamCloud OP @iammapping 正在努力搞这个功能。
|
63
GrahamCloud OP @haigeek 太感谢了!求加微信: Zaoshuio
|
64
demov2 2016-12-23 09:43:04 +08:00 1
以前有一个国外的网站提供一样的服务,后来被收购了。。就没有服务了。。体验很不错。试用一下~
|
65
isb 2016-12-26 12:42:29 +08:00 1
试着爬链家十个页面。。不知道为什么快十分钟了还是在执行任务中。。。
任务能否有个进度条。。 还有可否增加终止任务?? |
66
siknet 2016-12-26 12:43:14 +08:00 1
恕我无理,这个东西和火车头之类的相比有什么优点?可视化吗?实际操作试了一下,好像不是很利啊。
比如 http://videos.yizhansou.com/这个站,点选下面的剧集会连上面的置顶剧集一起选择,这个怎么解。。。 |
67
RyuZheng 2016-12-26 13:28:33 +08:00 1
|
68
GrahamCloud OP @isb 这个提议非常好
|
69
GrahamCloud OP @siknet 现在这个站点进去没东西,现在智能识别问题是还有,谢谢发现这个问题
|
70
GrahamCloud OP @RyuZheng 这个会作为重点帮你搞定
|
71
ivvei 2016-12-28 17:12:07 +08:00 1
多久才能出结果…… 随便扔了个页面地址过去,十几分钟了还在“分析页面”中……
|
72
GrahamCloud OP @ivvei 应该是几秒钟就该分析好了,是什么网站。
|
73
siknet 2016-12-28 19:19:13 +08:00 1
|
74
ivvei 2016-12-29 09:58:52 +08:00 1
@GrahamCloud http://www.zjsgat.gov.cn/jwzx/jsyw/index_1.html 这个,浙江省公安厅新闻页
|
75
ivvei 2016-12-29 10:08:52 +08:00 1
@GrahamCloud 今天试了下,倒是可以出结果了。不知道是不是昨天网络问题……
|
76
GrahamCloud OP @ivvei 昨天有一段时间是出现了网络问题,嗯。
|
77
GrahamCloud OP @ivvei 这个网站需要的数据,你看都能按你要求下来不。
|
78
ivvei 2016-12-29 16:18:58 +08:00 1
@GrahamCloud 还不错。虽然有小部分错乱,但是我要的数据还是取到了的。要是能支持翻页就好了。
|
79
GrahamCloud OP @ivvei 翻页是支持的,在你的控制台地址设置里面。
|
80
isnowify 2017-02-06 12:40:08 +08:00 via Android 1
很赞!
|
81
cxl008 2017-02-06 12:54:23 +08:00 1
坐等开源
|
83
haoxuexiaoyao 2017-02-06 13:28:02 +08:00 1
这个怎么用呢 爬的数据能自己保存到数据库么
|
84
haoxuexiaoyao 2017-02-06 13:30:04 +08:00 1
一直提示链接超时
|
85
firldlove 2017-02-06 14:11:48 +08:00 1
刚刚用 https://www.v2ex.com/ 试了一下,结果是 ERR_CONNECTION_RESET
|
86
ELLIA 2017-02-06 14:13:31 +08:00 1
一直出错啊~
|
87
GrahamCloud OP |
88
GrahamCloud OP @haoxuexiaoyao 爬的数据可以保存到数据库
|
89
GrahamCloud OP @isnowify 谢谢支持!
|
90
GrahamCloud OP @cxl008 一直在上新功能,估计可预见的时间不会开源
|
91
isnowify 2017-02-06 14:42:51 +08:00 via Android 1
@GrahamCloud 如果可以批量爬就更好了 比如某个成绩查询页面 直接枚举批量 post 准考证号得到结果
|
92
lwd2136 2017-02-06 15:14:18 +08:00 1
@GrahamCloud http://www.whwater.com/gsfw/tstz/ 爬不动?执行出错
|
93
ELLIA 2017-02-06 15:15:34 +08:00 1
嗯,现在好像能用了……
|
94
ybh37 2017-02-06 15:25:48 +08:00 1
试了一下 百度新闻,失败 4 次
难道我姿势不对? |
95
sphawkcn 2017-02-06 15:42:30 +08:00 1
@GrahamCloud 想爬取 http://xueshu.baidu.com/u/paperhelp/ 这个页面的“待应助” 下面的 “等待应助” 这个子标签页下的每一栏的文题。发现没法点击“等待应助” ,没法点进去。
|
97
GrahamCloud OP @isnowify 这个功能马上就会上
|
98
GrahamCloud OP |
99
GrahamCloud OP @sphawkcn 这个分页功能这一版还不支持,之后的一版会有改进。欢迎加 微信: Zaoshuio
|
100
ELLIA 2017-02-07 13:22:04 +08:00 1
今天有数据了,不过有几个问题,第一就是只会爬一页,如果需要第二页我得手动加入网址。
其次是目前只支持定时一天爬一次是吗?还是未来也这样。 最后就是我设了邮箱,但是没有收到邮件…… |