V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
comsweetcs
V2EX  ›  程序员

[数仓交流帖] 数仓职业交流贴

  •  
  •   comsweetcs · 2023-04-16 10:53:11 +08:00 · 3080 次点击
    这是一个创建于 588 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有搞数仓的老哥嘛?一起交流下?觉得这个职业能做一辈子嘛?离开了大厂,不需要了大数据的话,能干啥?我时常有这样的焦虑。

    34 条回复    2023-04-17 14:42:36 +08:00
    Jface
        1
    Jface  
       2023-04-16 11:10:43 +08:00
    普通底层数仓 + 1
    Searllo
        2
    Searllo  
       2023-04-16 11:35:29 +08:00 via iPhone
    数仓+2
    snw
        3
    snw  
       2023-04-16 11:41:49 +08:00 via Android
    祈祷大数据相关的硬件和数据处理软件不要有颠覆式的效率提升。
    目前数据库的效率有限,AI 写的智障代码和做的操作效率较低,难以在规定时间内完成处理,所以暂时难以替代合格的仓管。
    JSbiu
        4
    JSbiu  
       2023-04-16 13:33:28 +08:00
    数仓+3
    tensorzhang
        5
    tensorzhang  
       2023-04-16 14:00:13 +08:00   ❤️ 1
    数仓 迟早会被取代。做不了一辈子。可能最后只需要运维。
    tensorzhang
        6
    tensorzhang  
       2023-04-16 14:01:54 +08:00
    数仓 培训的也很多,不断输入人进来,还有本科对应的专业,但是目前来看,数仓的职位比 java 开发少的多,除了一线城市,其他大部分城市 直接买成熟的数仓工具,所以我觉得会萎缩。
    comsweetcs
        7
    comsweetcs  
    OP
       2023-04-16 14:07:34 +08:00 via iPhone
    @tensorzhang 差不多,基本上用阿里云那套。基础设施买,但你可以搞业务,业务买不了吧。
    tensorzhang
        8
    tensorzhang  
       2023-04-16 14:13:31 +08:00
    @comsweetcs 如果你说业务,那你就得看 aigc 发展到什么地步,那样还不如看好产品经理
    comsweetcs
        9
    comsweetcs  
    OP
       2023-04-16 14:14:39 +08:00 via iPhone
    @tensorzhang 如果 aicg 都能发展到这样,那基本上大家都得失业,不只是数仓。
    tensorzhang
        10
    tensorzhang  
       2023-04-16 14:15:48 +08:00
    @comsweetcs 所以不可能做一辈子,数仓很多业务,sql 大部分能搞定。感觉替代的会更快。
    Songxwn
        11
    Songxwn  
       2023-04-16 15:06:12 +08:00
    还以为是指数字仓鼠
    comsweetcs
        12
    comsweetcs  
    OP
       2023-04-16 16:33:31 +08:00 via iPhone
    @tensorzhang 主要是业务复杂,业务并没有通用性,如果 ai 业务都能解决,那大家都躺着吃饭就行了😹
    comsweetcs
        13
    comsweetcs  
    OP
       2023-04-16 16:34:11 +08:00 via iPhone
    @Songxwn 😹😹😹
    neoblackcap
        14
    neoblackcap  
       2023-04-16 17:09:14 +08:00   ❤️ 1
    数据存储是非常有必要的,无论什么业务都有必要。
    但是换家公司可能就不是像大公司一样用。很多场景都会用到数据仓库。但是很多局外人并不了解。这个需要自己既懂技术又懂业务。
    好比现在很多的 AI 公司,难道他们就不需要数据仓库吗?模型永远不用更新?模型全放内存?
    这些都是很好的发展方向。其实可以去看看国外创业公司的发展方向就能找到一些灵感
    notvalid
        15
    notvalid  
       2023-04-16 17:46:37 +08:00
    数仓+1

    我理解数仓不能做一辈子,主要因为数仓存在的意义在于 OLAP 。
    而如果大数据性能突然有了跨越式提升,可能就会瞬间被替代了,当然这个虽然感觉短期内不会出现,但是不能保证什么时候就会有一个突破,就像 gpt 。

    绝大部分的企业数据真的不多,离开了大厂可能得往链路上游( DBA ,ETL 工程师,Flink 开发工程师等)或者下游(数据分析师,BI 工程师,商业分析师等)探索。
    levelworm
        16
    levelworm  
       2023-04-16 19:45:02 +08:00 via Android
    数工+1 ,感觉进到瓶颈了,期望突破到 DevOps
    comsweetcs
        17
    comsweetcs  
    OP
       2023-04-16 20:26:29 +08:00 via iPhone
    @notvalid 老说的是数据平台开发吧。我主要也是做 etl
    comsweetcs
        18
    comsweetcs  
    OP
       2023-04-16 20:27:39 +08:00 via iPhone
    @levelworm 老哥做的是 BI 还是平台开发?
    levelworm
        19
    levelworm  
       2023-04-16 20:30:58 +08:00 via Android
    @comsweetcs 大佬好,主要是做 etl 兼一些 cicd 之类的 ops
    Ambition95
        20
    Ambition95  
       2023-04-17 00:26:41 +08:00
    数仓+1 主要做业务的数据开发
    LeegoYih
        21
    LeegoYih  
       2023-04-17 00:28:46 +08:00
    我们公司数仓都被裁了大半了
    lifanxi
        22
    lifanxi  
       2023-04-17 00:33:52 +08:00   ❤️ 1
    俺们是做实时数仓产品开发的,让本来只能离线跑的 OLAP 查询实现 Ad Hoc 交互式地查询。虽然现在实时数仓不可能一下子替代传统的数仓,不过在很多场景下我们的实时数仓都能实现“一站式”的数据服务,让应用的开发更简单。有兴趣的同学欢迎来勾搭。
    needpp
        23
    needpp  
       2023-04-17 01:20:47 +08:00
    @Songxwn 同感
    dayeye2006199
        24
    dayeye2006199  
       2023-04-17 07:14:53 +08:00
    我之前做过一阵 reverse etl ,说实话,搞起来挺难的。对一致性,容错,性能都有很高的要求。
    haimianbihdata
        25
    haimianbihdata  
       2023-04-17 08:11:10 +08:00 via Android   ❤️ 2
    大数据没实权, 推不动业务侧改革。。。。裁员首选
    xscit
        26
    xscit  
       2023-04-17 09:37:27 +08:00
    是开发报表吗?
    akira
        27
    akira  
       2023-04-17 09:58:13 +08:00
    茶树菇
    comsweetcs
        28
    comsweetcs  
    OP
       2023-04-17 10:18:59 +08:00
    @haimianbihdata 这是很普遍的一个问题。
    comsweetcs
        29
    comsweetcs  
    OP
       2023-04-17 10:21:37 +08:00
    @dayeye2006199 这和普通的 etl 有啥区别?你说的一致性、容错我理解基本都是技术层面的事。
    comsweetcs
        30
    comsweetcs  
    OP
       2023-04-17 10:22:07 +08:00
    @xscit 哈哈哈哈,每个公司不一样,但是如果说开发报表,那就是应用层的事了。
    comsweetcs
        31
    comsweetcs  
    OP
       2023-04-17 10:22:37 +08:00
    @LeegoYih 大佬啥公司,后端没裁?
    comsweetcs
        32
    comsweetcs  
    OP
       2023-04-17 10:24:37 +08:00
    @lifanxi 看来我还是得转实时,还能写点代码。
    dayeye2006199
        33
    dayeye2006199  
       2023-04-17 14:35:53 +08:00 via Android
    @comsweetcs 逆向就是推数据从数仓到其他系统的 API 。比如同步产品数据到电商店铺里面去。

    这个同步过程需要考虑挺多东西
    如何记录状态,从而增量同步?
    数据很多如何加快同步速度?
    API 有限流,怎么在加快速度的同时不超过限流?
    某几条数据同步失败了,重试和重试失败的策略是啥?
    数据有重复怎么办?
    comsweetcs
        34
    comsweetcs  
    OP
       2023-04-17 14:42:36 +08:00
    @dayeye2006199 以前我们是在应用层搞的,每个表生成一个全量和增量分区,第一次推全量后面推增量。把多条数据合并成一条消息,走 kafka 同步给业务系统。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3073 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 00:11 · PVG 08:11 · LAX 16:11 · JFK 19:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.