需爬虫兼职的大牛及询价 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 外包信息请发到 /go/outsourcing 节点。

• 不要把相同的信息发到不同的节点

这是一个创建于 3901 天前的主题，其中的信息可能已经有所发展或是发生改变。

请问各位大牛，有如下爬虫需求外包，请问一般开价几何？有兴趣的请联系我。谢谢。

针对类似如下网站，http://app.zjepb.gov.cn:8089/nbjcsj/
1. 按照规定的数据库表的格式，将基础数据和每小时的实时数据内容爬取下来存入数据库,其中初始阶段应将所有可能的历史数据保存。
算法要求：
1，从之前向现在的时间取爬取，这样如果因为网络等原因断开后，再次开始时，能自动从更早的时间点开始爬取。
2. 如果超时，至少要有3次重试。再超时，或者发生错误时，能发送邮件给指定人。
2. 性能：内存不能超过300M， CPU使用率不能超过30%。
3. 数据库：已设计好，使用postgresql.
4. 做成可以用cron调用的命令，比如ruby或者node.js的可以执行的命令。

第 1 条附言 · 2014-12-19 10:03:32 +08:00

寻长期兼职爬虫，最好python。懂postgresql和celery者优先。

18 条回复 • 2016-12-11 01:42:37 +08:00

1

rrfeng

2014-07-30 22:09:17 +08:00

怎么从『更早的时间』开始爬？

2

icedx

2014-07-30 22:24:06 +08:00

大约半狗

3

faceair

2014-07-30 22:25:33 +08:00

爬虫用node写不错

4

macken

2014-07-30 22:46:07 +08:00 via Android

这个爬虫需求不难，这个网站貌似很脆弱的样子，要注意别把对方的网站爬瘫，技术用啥实现都可以吧，crontab都可以调用

5

cdwyd

2014-07-30 22:52:51 +08:00

第二页还有往后的数据是根据首页的referer参数返回数据的？怎么会有这样的设计

6

d0o0g

2014-07-30 23:09:24 +08:00

专注爬虫定制服务三十年！经验丰富！
政府网站各种奇葩！
楼主的目标网站，响应很慢，不过也就十六页记录。
所以程序写起来不会太难，用python脚本实现，轻松搞定。

7

ultimate010

2014-07-31 00:02:28 +08:00

搞定不难，价位多少？

8

no13bus

2014-07-31 00:18:40 +08:00

恩。楼主给你163邮箱里面发了封邮件，你看看。可以的话联系邮件中的qq。

9

RangerWolf

2014-07-31 12:23:14 +08:00

你们是不是已经把这个网站搞瘫痪了？完全打不开啊~ 哈哈

10

chevalier

2014-07-31 13:43:21 +08:00

我可以做，原来做过半年的Python爬虫工作

11

baigreen

2014-07-31 16:44:23 +08:00

so easy~
小伙伴们上。。

12

guosunpeng

2014-07-31 18:26:16 +08:00

为什么我想起了shadowprotect的增量备份

13

chang888

2014-08-04 22:59:14 +08:00

可以用node来做，不难实现。

14

rubylove

OP

2014-12-19 09:59:17 +08:00

@chevalier 还有兴趣做吗？

15

rubylove

OP

2014-12-19 09:59:54 +08:00

@d0o0g 还有兴趣？

16

rubylove

OP

2014-12-19 10:00:55 +08:00

现在需要扩大规模，爬取更多省份数据，如果还有兴趣的兄弟们，请联系我。 QQ:18028206

17

chevalier

2014-12-19 12:52:55 +08:00

@rubylove 怎么联系你？

18

yongjiu236z

2016-12-11 01:42:37 +08:00

@d0o0g
@ultimate010
@no13bus
@chevalier
+Q2602560384

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 1664 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 26ms · UTC 16:21 · PVG 00:21 · LAX 09:21 · JFK 12:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.