V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
voids
V2EX  ›  程序员

有没有老哥做过数仓或者数据中台,请教个问题

  •  
  •   voids ·
    ShawnVoid · 2023-06-07 14:17:03 +08:00 · 2024 次点击
    这是一个创建于 570 天前的主题,其中的信息可能已经有所发展或是发生改变。
    公司最近推行数字化转型,要求建立一个数据仓库,统一产出所有项目的报告。但各项目使用的产品来自不同的第三方公司,没有 API 接入,日常报告只能基于导出的 Excel 数据。由于我不是技术出身,能想到的方案就是从各项目收集每天导出的数据,用脚本定时读取数据,上传到 MySQL 中,再用 MySQL 中的数据做可视化。想咨询一下在这种背景下,从“数据仓库”技术角度还有没有更好的解决方案?或者这样的需求有没有必要引入其他数仓的技术?
    16 条回复    2023-06-07 15:59:59 +08:00
    aru
        1
    aru  
       2023-06-07 14:26:37 +08:00   ❤️ 1
    数据就是干这活的呀
    市面上很多数仓产品,大部分都是有定制化开发的,就看你们有多少预算做这个事情
    sss495088732
        2
    sss495088732  
       2023-06-07 14:27:30 +08:00   ❤️ 1
    oss+foreign table+bi
    sijue
        3
    sijue  
       2023-06-07 14:32:48 +08:00   ❤️ 1
    代码使用 httpClient 直接访问第三方公司页面 http 的请求,获取返回的 excel ,解析 excel 写入 mysql ,然后从 mysql 定时写入数仓
    hhjswf
        4
    hhjswf  
       2023-06-07 14:33:24 +08:00   ❤️ 1
    就这么点需求感觉没有数仓的必要,一般是考虑大数据量的实时或者离线计算才引入。
    xuelang
        5
    xuelang  
       2023-06-07 14:36:15 +08:00   ❤️ 1
    最简单就是用 clickhouse 了,直接 Excel 导入 clickhouse 表,秒级分析。。
    voids
        6
    voids  
    OP
       2023-06-07 14:36:38 +08:00
    @hhjswf 是的,这也我最近思考的,尤其了解了一些 Hadoop ,Hive 的基础,感觉不是很合适这个需求
    liprais
        7
    liprais  
       2023-06-07 14:36:49 +08:00   ❤️ 1
    你先把你想要的做出来
    就知道怎么做了
    voids
        8
    voids  
    OP
       2023-06-07 14:37:30 +08:00
    @xuelang 感谢,我了解一下。
    optional
        9
    optional  
       2023-06-07 14:50:23 +08:00 via iPhone   ❤️ 1
    数仓=etl 工程师+报表工程师。
    理想很美好,各部门都准备好数据。
    实际很现实,数据都要自己去扣,自己找资源整合数据。
    voids
        10
    voids  
    OP
       2023-06-07 14:53:49 +08:00
    @optional 是的,深有体会😂
    tensorzhang
        11
    tensorzhang  
       2023-06-07 14:56:05 +08:00   ❤️ 1
    直接去找专业的公司就好了,例如神策之类的。能花钱尽量自己不动手
    sujin190
        12
    sujin190  
       2023-06-07 15:03:47 +08:00   ❤️ 1
    这事看起来没啥复杂的,就是累人,图表显示还好,既有开源系统可以用各种云厂商也有,收集数据确实麻烦,一般也不标准化,或许可以看看各种 pra 工具能不能搞搞
    voids
        13
    voids  
    OP
       2023-06-07 15:15:30 +08:00
    感谢各位老哥,我大概知道方向了。
    xuelang
        14
    xuelang  
       2023-06-07 15:15:36 +08:00   ❤️ 1
    clickhouse + grafana / redash 都行,肯花钱就直接买云服务,不舍得就自己部署,也是很简单的
    vincent7245
        15
    vincent7245  
       2023-06-07 15:49:45 +08:00   ❤️ 1
    友情提醒 OP ,如果只有你自己维护这套系统,别弄太复杂,如果 mysql 这种数据库就能满足你的需求,那就用 mysql 。如果你们没有 BI 部门,没有专业的大数据开发,别搞数仓那一套东西,光运维这套系统就能累死你。
    qzwmjv
        16
    qzwmjv  
       2023-06-07 15:59:59 +08:00   ❤️ 1
    你这个不需要大数据,合理的数据库就行了,就是需要 ETL 工程师写解析任务
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2345 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 02:01 · PVG 10:01 · LAX 18:01 · JFK 21:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.