V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lswlray
V2EX  ›  创业组队

找 2 个数据采集的高手,一个细分赛道,有钱景

  •  
  •   lswlray · 39 天前 · 1998 次点击
    这是一个创建于 39 天前的主题,其中的信息可能已经有所发展或是发生改变。
    制药行业中,按照国家监管政策、需要掌握药品的流向
    各个商业公司也都配合提供,只是方式各不一样:有的是通过网站提供、有的是可以让你安装插件直接访问数据库、有的是通过 web Service 提供,有的是给你的 FTP 上传流向数据文件等等
    由于全国的商业公司众多,所以也有一些专业公司做这个流向数据提供服务的
    只是这里面就牵涉 2 个问题:一个是规模化公司收费较高,一个是规模化公司是通用产品、为多个企业服务、有数据泄露的可能。
    所以,实际上很多制药企业其实期望的是有一个自己可以控制并完成的数据抓取工具

    我因为资源关系,在山东、陕西、山西、河南有多个这方面的企业关系,可以为他们提供这样的服务。
    所以想找 2 个数据采集的高手、组个小团队、自己来承接这个活
    是有能力自己开发工具的,不是用火车头这些采集工具

    如有兴趣,可以联系我 NzY5NTkwMA== ,人最好是山东、陕西、山西、河南的,方便对接。
    第 1 条附言  ·  38 天前
    1 、本质上需要做爬虫开发的高手,一定是要有足够经验的,例如每家商业提供数据的方式都不同、需要针对不同的网页结构、数据库结构、接口取数等;另外,应用中会直接用 IP 池模式等等。

    2 、不违法:国家 GSP 政策要求、所有药厂需要知道自己的每盒药是通过什么渠道销售给消费者的、要求这些渠道(商业公司)必须提供销售数据给药厂。所以,抓取的数据,其实就是这些商业公司提供给药企的,只不过每家提供的方式不一样、每个药企全国一般都有上千家合作商业、每天都有大量的销售数据(一个中等规模的药厂,一年这种数据几百万条、上千万条),以前基本人工采集,十几个甚至几十个人,现在通过程序去采集而已,也就是采集的本就是商业公司在国家政策要求下必须提供给药厂的数据。行业其实一直有一些规模化的这类产品、国内国外的都有。

    3 、因为需要大量和药厂现场对接,且数据属于药厂的核心经营数据,所以必须是全职的,没法兼职做。但一旦和药厂达成合同,这种是持续性收入,稳定。

    4 、同样,因为需要大量和药厂现场对接,所以优先选上述 4 个省的,不然抛开出差成本高不说,时间浪费上就很难让药厂接受了。
    第 2 条附言  ·  36 天前
    发帖后加我 V 沟通的兄弟比较多,沟通下来,我认为需要再补充 2 点:

    1 、这个工作需要全职,因为工作量确实比较大;

    2 、加入团队、可以按正常雇佣制,也可以按合伙制:由于涉及药企的核心经营数据、有较高的保密需求,所以优先考虑愿意合伙制的兄弟。雇佣制的薪酬水平可以保证属于当地中高水平,但如果要和北上广深的薪酬对比可能最多也就是接近;合伙制按股份比例分红,会更多一些。总体上不能和在一线城市或大厂的收入比较,但一方面稳定持续、一方面在当地可以做到中高水平;如果是希望能“暴富”的,可能也不合适,毕竟这领域其实有很多大厂产品,我们能拿下合同,一方面是靠人脉资源,一方面低价也是必须的。
    9 条回复    2025-08-05 11:07:32 +08:00
    liuliuliuliu
        1
    liuliuliuliu  
    PRO
       39 天前
    不犯法?
    lswlray
        2
    lswlray  
    OP
       38 天前
    @liuliuliuliu 不违法:国家 GSP 政策要求、所有药厂需要知道自己的每盒药是通过什么渠道销售给消费者的、要求这些渠道(商业公司)必须提供销售数据给药厂。所以,抓取的数据,其实就是这些商业公司提供给药企的,只不过每家提供的方式不一样、每个药企全国一般都有上千家合作商业、每天都有大量的销售数据(一个中等规模的药厂,一年这种数据几百万条、上千万条),以前基本人工采集,十几个甚至几十个人,现在通过程序去采集而已,也就是采集的本就是商业公司在国家政策要求下必须提供给药厂的数据。行业其实一直有一些规模化的这类产品、国内国外的都有。
    lasuar
        3
    lasuar  
       38 天前
    你留的 qq ?
    runking
        4
    runking  
       38 天前
    这就是个体力活吧
    clarkethan
        5
    clarkethan  
       38 天前
    你是纯做采集么,还是包括分析,这个数据,除了满足监管要求以外,对药厂的价值更多的在于查串货、控价之类的,以及辅助生产计划、销售端布局之类的,纯采集应该很难单独作为一个事情吧应该
    lswlray
        6
    lswlray  
    OP
       37 天前
    @clarkethan 没错,采集的数据是用于这些用途,但药企一般都有这方面的系统,我们采集数据、提供数据、他们导入他们的系统使用就行。
    lswlray
        7
    lswlray  
    OP
       37 天前
    @runking 全国的药企也多,非药企想获得这些数据的也多,所以很多商业虽然对药企提供数据,但网站会做防爬虫策略,还是需要具体分析应对。既是体力活,也是技术活。
    clarkethan
        8
    clarkethan  
       37 天前
    @lswlray 那你这就属于简单但繁琐的体力活了,而且,这个数据的使用也敏感,容易触及灰色地带。你要是没找到合适的人,回头可以找我,不在你说的区域,但是干这个活还是熟练的,Rust / C
    lswlray
        9
    lswlray  
    OP
       36 天前
    @clarkethan 我觉得我说明的已经很清楚了:我们为药厂采集的数据、是药厂在国家政策要求下本就应该得到的、它自己产品的销售数据,国内外也有很多大厂同类产品,我不知道为什么你会认为“容易触及灰色地带”。 你如果坚持有这样的认知没问题,但不要误导他人。多谢。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1632 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 16:27 · PVG 00:27 · LAX 09:27 · JFK 12:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.