V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
dt2vba
V2EX  ›  外包

最近谈了一个外包的活,爬一个网站,大概 400 万网页, 1000 元少不少?

  •  
  •   dt2vba · 2019-03-30 23:14:24 +08:00 via Android · 5894 次点击
    这是一个创建于 2098 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网站没有防止爬取数据的措施。

    客户要求,在他的 VPS 上安装 PostgreSQL,把爬取的数据存入该数据库。

    VPS 的配置,1 个处理器,1024MiB 内存,20GiB 固态硬盘。这样的配置能应付 2 亿条记录的单表吗?

    大佬们,说说你们的看法。非常期待你的建议。
    41 条回复    2019-04-20 09:43:57 +08:00
    herozzm
        1
    herozzm  
       2019-03-31 00:06:06 +08:00 via iPhone
    四百万 碰上反派 ip 限制什么的你 1 万成本未必做的出来
    ,1000 简直和免费差不多吧,你还不如免费
    10Buns
        2
    10Buns  
       2019-03-31 00:08:43 +08:00   ❤️ 14
    这个价钱不如直接免费落个人情😂
    GM
        3
    GM  
       2019-03-31 00:16:27 +08:00
    少了,加个零还差不多。
    但是如果真的是没反爬措施的话,那也没啥技术难度,就当赚点零花钱吧。
    molvqingtai
        4
    molvqingtai  
       2019-03-31 00:20:25 +08:00 via Android
    同意二楼
    persimmon
        5
    persimmon  
       2019-03-31 00:24:59 +08:00
    Charging depends on impact on client.
    ghd700
        6
    ghd700  
       2019-03-31 00:28:00 +08:00
    没反扒,这跟捡钱没区别
    opengps
        7
    opengps  
       2019-03-31 00:31:08 +08:00
    电费够吗?
    thulof
        8
    thulof  
       2019-03-31 02:09:14 +08:00 via iPhone   ❤️ 6
    1000 太少了,想起了大学的时候缺钱,500 帮人爬过新浪微博,做的舆情分析系统,动用了 cookie 池,代理库,Redis 等,还是分布式的,自然语言处理,还有个管理的前端系统!总给才 500 !现在想想感觉自己好像是 sb,太单纯了
    wenbinwu
        9
    wenbinwu  
       2019-03-31 04:27:53 +08:00
    我做过一个爬 6 个类似网站的,只爬两个关键字,几百条,第一版赚了一万
    6260628
        10
    6260628  
       2019-03-31 04:36:52 +08:00
    看你水平了
    dangyuluo
        11
    dangyuluo  
       2019-03-31 05:58:28 +08:00
    @thulof 你学习到的技术远远超过 500,我觉得挺好的。
    smallX
        12
    smallX  
       2019-03-31 07:14:18 +08:00 via Android   ❤️ 12
    贱别人,贱己,贱行业...
    dsg001
        13
    dsg001  
       2019-03-31 07:42:39 +08:00
    如果没有防爬措施,而且在对方 vps 上运行,爬虫也就是写写规则的事,1k 还能接受

    至于数据单条数据 * 2 亿,恐怕怎么算硬盘都不够
    loading
        14
    loading  
       2019-03-31 08:07:15 +08:00
    @wenbinwu 几百条,手工 CtrlCV 我都觉得赚!
    murmur
        15
    murmur  
       2019-03-31 08:07:55 +08:00
    2e 数据 1000 快 真便宜
    kingfsen
        16
    kingfsen  
       2019-03-31 08:21:51 +08:00 via Android
    至少 4000 才干
    StarRED
        17
    StarRED  
       2019-03-31 08:31:39 +08:00 via Android
    软件工程师 和 硬件工程师 相比,软件开发在中国比较看轻
    V2exUser
        18
    V2exUser  
       2019-03-31 08:34:06 +08:00 via Android
    先看爬的东西是什么,违法不,不然
    akrlab
        19
    akrlab  
       2019-03-31 08:58:29 +08:00
    如果没有反扒,有一说一,不费吹灰之力,这钱也就挣了。
    不过,注意,1000 块现在能干毛线?连油钱都不够,还不如你免费做个人情,把对方变中介,以后有活让他推荐给你。
    Deathminip
        20
    Deathminip  
       2019-03-31 09:24:19 +08:00
    单核处理器? 带宽多少? 400 万页面,假如每个页面 2 秒钟处理速度,800 万秒 / 60 / 60 / 24 = ?
    faustina2018
        21
    faustina2018  
       2019-03-31 09:33:09 +08:00 via iPhone
    上次朋友帮我爬了一万多条数据,我给他寄了两桶青啤一厂原浆(加运费 400 多),一箱大梭子蟹(加运费 400 多),后来第二年还送了他一箱山东大樱桃( 200 多),楼主自己算吧。
    uyhyygyug1234
        22
    uyhyygyug1234  
       2019-03-31 09:36:35 +08:00
    所以就是看有没有反爬!!拿多少钱,干多少事,哈哈
    ThirdFlame
        23
    ThirdFlame  
       2019-03-31 09:44:32 +08:00
    400 万 得爬到天昏地暗啊。1000 有点少吧。 *10 可以一干
    luozic
        24
    luozic  
       2019-03-31 10:24:05 +08:00 via iPhone
    免费搞吧,实际价格 10w+
    cyssxt
        25
    cyssxt  
       2019-03-31 10:33:58 +08:00 via iPhone
    白菜
    falcon05
        26
    falcon05  
       2019-03-31 10:34:19 +08:00 via iPhone
    练手,就当电费。
    dream7758522
        27
    dream7758522  
       2019-03-31 10:43:22 +08:00 via Android
    如果爬虫很好写,写好跟你没关系了,那 1000 块钱可以。事逼的话太便宜
    MonoLogueChi
        28
    MonoLogueChi  
       2019-03-31 10:46:49 +08:00 via Android
    如果网站没有任何反爬,不包售后,这个价格还算可以,另外凭这 VPS 的配置,能爬下来? 20G 的硬盘够用吗,有点担心
    python30
        29
    python30  
       2019-03-31 11:00:46 +08:00
    楼主是新手而且有时间的话就接了吧。挣钱事小,主要有动力学到技术了
    如果楼主是高手了。那就看楼上们的回答
    largecat
        30
    largecat  
       2019-03-31 11:11:07 +08:00 via Android
    这个小 vps 我觉得你还是得本地机器采然后再传上去,400 万也得折腾好久,看你带宽了,
    ghostheaven
        31
    ghostheaven  
       2019-03-31 11:11:07 +08:00 via Android
    我都是按照自己的工资为基数*一个系数*估算工作量=总价格。系数>=3,保证外快比加班的收益高。
    ophunter
        32
    ophunter  
       2019-03-31 14:00:07 +08:00
    插眼
    winglight2016
        33
    winglight2016  
       2019-03-31 15:23:19 +08:00
    lz,你放心吧,真正的需求远远不止这些。你报价应该基于你的单位时间价格*预计处理的消耗时间*1.5,外包起步价不应该低于 5k,不然,还不如把时间花在学习上。
    brotherb
        34
    brotherb  
       2019-03-31 23:55:11 +08:00
    太少了。。。。
    xiaobo944
        35
    xiaobo944  
       2019-04-01 09:16:50 +08:00
    “做技术的”思考方式始终是 “技术”,学习也是一种成本,需要时间的堆叠,各种试错的成果物。
    mmixxia
        36
    mmixxia  
       2019-04-01 10:10:11 +08:00
    是太少了,觉得至少也要*20
    ml1344677
        37
    ml1344677  
       2019-04-01 11:43:31 +08:00
    没反爬 你是觉得没反爬 还是你爬到一个你认为的量之后认定了没有反爬? 可能你完全就没有触发他的反爬机制
    400 万条 这点钱 太少了
    roberts
        38
    roberts  
       2019-04-08 23:00:38 +08:00
    @wenbinwu 这么牛逼吗
    wenbinwu
        39
    wenbinwu  
       2019-04-09 00:11:50 +08:00
    @roberts 这东西吧,给要求多的人做,你做的再好他也说你哪哪哪不行,还不给你钱
    反正自己估计自己的价值,比如自己一小时值多少钱,根据对方给的价和自己对项目预估的时间算算
    合算就干,不合算就算
    maslow
        40
    maslow  
       2019-04-17 17:10:03 +08:00
    1000 是肯定少了,如果简单的话,这个数据量也是 4-5k。 如果要过验证、反爬( ip,用户)就要单加钱了。
    bigtotoro
        41
    bigtotoro  
       2019-04-20 09:43:57 +08:00
    兄弟,太低了, 不如拿时间学习。行业就是这样搞乱的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1344 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 23:51 · PVG 07:51 · LAX 15:51 · JFK 18:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.