这两周,我们做了一个目前来看非常易用的云爬虫:
现在,我们提出了很多酷的设想,也在一步一步慢慢完善。 大家快来玩玩。 如果你也有酷的想法,愿意洗耳恭听。 期待可以一起合作。
101
Lothar 2017-02-07 13:46:35 +08:00 1
这个东西确实很厉害,不过很好奇,那些需要我隐私信息登录网站才有的数据要怎么处理呢?
|
102
GrahamCloud OP |
103
GrahamCloud OP @Lothar 这个就要分很多情况了,目前能处理好很多。
|
104
ELLIA 2017-02-07 14:05:33 +08:00
@GrahamCloud 嗯,加了……
|
105
Xrong 2017-02-07 14:22:43 +08:00 1
对于小白挺好,但是真正想要特定网站数据或者自定义强的功能,又觉得隔靴搔痒还不如自己写代码来得方便。
|
106
gongzili456 2017-02-07 16:12:45 +08:00 1
防抓机制怎么破的?
|
107
GrahamCloud OP @Xrong 这版确实如此,马上会上一版新的全面提升。到时欢迎更多意见
|
108
GrahamCloud OP @gongzili456 要一个一个搞定,嗯
|
109
rickwise 2017-02-08 12:44:06 +08:00 via iPhone 1
Ajax 分页 能搞定么?怎么做?
|
110
catfish 2017-02-08 13:11:22 +08:00 1
怎么一个时间抓了这么多次,这个任务我是昨晚开始的。 |
111
nomemo 2017-02-08 13:50:00 +08:00 1
怎么说呢,非常理想
|
112
vizards 2017-02-08 16:08:05 +08:00 1
为什么有的页面分析很久也没有出现结果啊...是学校 asp 做的站点
|
113
GrahamCloud OP @rickwise 分页可以搞,马上发布的新版欢迎玩耍,并且会做一个使用视频。
|
114
GrahamCloud OP @catfish 取消出了问题么
|
115
GrahamCloud OP @nomemo 怎么说呢,这么理想看了好开心啊! 当然有问题一定告诉我
|
116
GrahamCloud OP @vizards 求告知细节认真解决一下!
|
117
zhucha 2017-02-09 12:55:06 +08:00 1
如果有多个分页,有时候三个分页,有时候三十个分页,这种在设置每次都抓取三十页,会不会有问题?
|
118
GrahamCloud OP @zhucha 应该不会,如果出了问题,我可以后台帮你看看问题在哪,请放心!
|
119
vizards 2017-02-09 14:44:27 +08:00 1
r#116 @GrahamCloud 可能是昨天你们网络又出问题了吧,今天看了下又可以了
|
120
GrahamCloud OP @vizards 恩,最近在上新版,多谅解。多提意见!
|
121
lidream2016 2017-02-09 17:55:46 +08:00 1
|
122
GrahamCloud OP @lidream2016 现在应该好了!
|
123
zhucha 2017-02-10 11:30:50 +08:00 1
假设一个页面有两列,在左键点击第一列的第一个项目时,只会自动添加第一列的其它行的相关内容,然后在 Excel 里面生成第一列。实际第二列的内容和第一列一样,但必须要再点第二列的第一个项目,然后变成 Excel 的第 N 列。
这样查看起来非常不方便,有没有办法智能识别,或者有什么办法让第 N 列自动移到第一列的下面呢? |
124
GrahamCloud OP @zhucha 好问题,求加微信! Zaoshuio
|
125
x86 2017-02-10 12:50:17 +08:00 1
好奇有遮罩层的怎么解决
|
126
GrahamCloud OP @x86 现在有好多点子,都在一个一个试着用
|
127
catfish 2017-02-11 14:27:06 +08:00 via iPhone 1
@GrahamCloud 正常了,之前任务重复运行
|
128
GrahamCloud OP @catfish 多试一试,有问题随时说
|
129
downsky 2017-02-13 13:15:55 +08:00 1
帐号似乎验不验证没有区别。
|
130
Nat 2017-02-13 13:17:52 +08:00 1
楼主求个联系方式,我们公司对爬虫方面有业务需求
|
131
DonxYu 2017-02-13 13:24:01 +08:00 1
验证码问题貌似没解决 搜狗微信
|
132
GrahamCloud OP @downsky 48 小时 不激活就有区别了
|
133
GrahamCloud OP @Nat 好啊,微信: Zaoshuio
|
134
GrahamCloud OP @DonxYu 收到,研究中。
|
135
gabri 2017-02-14 12:09:24 +08:00 via Android 1
好像很有趣
|
136
exoticknight 2017-02-14 12:19:17 +08:00 1
只用一个链接?太过简化的话就容易造成功能薄弱(当然有部分情况也是很方便
数据结构是给 dom 结构的 class 啊 id 啊路径啊做索引? 真正用的时候遇到的问题很多事混合的, AJAX 分页,然后爬出的链接要跟踪进去爬真正的数据,还要防反爬 折腾过不少,最后还是学了一下 scrapy ,起码能 work …… |
137
GrahamCloud OP @gabri 持续迭代中,求意见
|
138
GrahamCloud OP @exoticknight 通用爬虫一切为了易用吧。
|
139
cqcn1991 2017-02-15 12:24:44 +08:00 1
用了一下,还是挺好用的
但是现在只适合抓列表页面,不适合抓详情页面。对比了一下 Import.io, 感觉完善很多,不过比国内的八爪鱼, gooseeker 都好很多了,看好你们 |
140
GrahamCloud OP @cqcn1991 详情页功能我们正在开发中,敬请期待。
|
141
moonkiller 2017-02-20 13:01:54 +08:00 1
lz 你太牛了。我就要个你这样的功能=。=
|
142
GrahamCloud OP @moonkiller 真的?有问题有需要随时说啊
|
143
moonkiller 2017-02-20 13:23:01 +08:00 1
@GrahamCloud 问题太多,不知道从哪儿说 ಥ_ಥ。。。。
|
144
GrahamCloud OP @moonkiller 来加微信: Zaoshuio ,慢慢说
|
145
fhefh 2017-02-20 15:34:06 +08:00
先 mark 试用中
|
146
F0nebula 2017-02-21 15:48:55 +08:00 1
竖屏打开首页没有显示
"热门数据来源 TOP 16" 的图标 不过可以点击 |
147
GrahamCloud OP @F0nebula 感谢!
|
148
jadetang 2017-02-22 19:30:29 +08:00 1
好奇问一下,你们的爬取机器是只有一台吗,如果数据量过大,会爬取得很慢吗
|
149
GrahamCloud OP @jadetang 用的阿里云
|
150
hoyixi 2017-02-23 13:49:55 +08:00 1
哈哈,赞一个
|
151
GrahamCloud OP @hoyixi 昨天上线了神奇功能,快来试试
|
152
jadetang 2017-02-23 15:58:50 +08:00 1
@GrahamCloudge 这个和阿里云没关系的啊。如果 1 万个人用,零点的时候有 100 万个爬取任务在爬取。那么你是弄一台很高配的 ecs 去跑吗
|
153
GrahamCloud OP @jadetang 肯定是分布式的啊……
|
154
jadetang 2017-02-24 11:39:52 +08:00 1
@GrahamCloud 那同一个任务是怎么只在一个机器上去跑的?
|
155
GrahamCloud OP @jadetang 我们有非常好的任务调度,嘛,非常好。
|
156
YingJie 2017-02-25 21:07:48 +08:00 1
楼主你好,请问你们的爬虫是基于 pyspider 吗?
|
157
peesefoo 2017-02-26 09:36:08 +08:00 via Android 1
以后会收费吗
|
158
GrahamCloud OP @YingJie 接近了
|
159
GrahamCloud OP @peesefoo 流量成本越来越高,以后必须要收费啊
|
160
lneoi 2017-02-27 11:38:00 +08:00 1
注册的时候 看到“立即注册造数,获取你的数据”。犹豫了一秒,为什么我要主动贡献我的个人信息给你...然后就明白 我理解错了..
|
161
GrahamCloud OP @lneoi 哈哈哈哈
|
162
cuebyte 2017-03-07 12:08:04 +08:00 1
再次推广之前应该注意一下自己的服务器是否能承载吧?
你们连一些很简单的博客也刷不出来 |
163
Mitt 2017-03-07 12:16:19 +08:00 1
_(:зゝ∠)_ 表示想知道前端后端服务端用了哪些技术
|
164
Suclogger 2017-03-09 12:31:24 +08:00 1
|
165
Suclogger 2017-03-09 14:10:25 +08:00
可以抓取了,有个问题就是修改网址规则之后重新抓取,用的还是修改前的网址规则?
|
166
benbenlang 2017-03-10 21:49:42 +08:00 1
你们有 QQ 群吗,我想加一个,谢谢!
|
167
GrahamCloud OP @cuebyte 求告知是哪个博客,非常感谢!
|
168
GrahamCloud OP @Mitt 技术交流欢迎加微信: Zaoshuio
|
169
GrahamCloud OP @benbenlang 欢迎加微信: Zaoshuio
|
170
cuebyte 2017-03-13 12:23:18 +08:00 1
@GrahamCloud 王垠的博客
|
171
qianguozheng 2017-03-14 11:33:10 +08:00 1
打不开。。。
|
172
GrahamCloud OP @qianguozheng 求告知!
|
173
Zicoco 2017-03-28 10:15:12 +08:00 via Android 1
能爬商品评论吗
|
174
Zicoco 2017-03-28 15:16:05 +08:00 1
淘宝的评论不行啊。。。必须先进入页面,点击才能到评论 tab,这个怎么破
|
175
GrahamCloud OP @Zicoco 求告知详情!感谢
|
176
x86 2017-03-28 15:48:21 +08:00 1
tab 页, ajax 等怎么破
|
177
GrahamCloud OP @x86 之后我们会上通用方案。
|
178
binux 2017-04-21 16:21:40 +08:00 1
半年了吧,行对其错误的问题依旧没有解决。
|
179
sohoer 2017-04-21 16:23:44 +08:00 1
|
180
GrahamCloud OP @binux 小团队,很多主要功能还在慢慢排期做,低下了羞愧的脑袋瓜儿。
|
181
GrahamCloud OP @sohoer 求加 微信: Zaoshuio
|
182
ooTwToo 2017-04-25 13:45:59 +08:00 1
服务挂了吧。
|
183
GrahamCloud OP @ooTwToo 没有没有
|