V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cassidyhere
V2EX  ›  程序员

bi 大量 parquet 小文件存储方案求助

  •  
  •   cassidyhere · 2021-01-28 11:18:45 +08:00 · 1166 次点击
    这是一个创建于 1404 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景: 目前在做的一个 bi 系统,后台有大量用户由上传文件生成的 parquet(一个项目对应两个 parquet,一个原始数据,一个新增数据,大小主要是几十 k~几百 m),操作是随机读部分列 /更新列,由于 pyarrow 操作 parquet 不支持更新部分列,为了性能考虑更新列是操作新增数据 parquet 。当前 parquet 是储存在 nfs 。

    请教: 1.有没有更好的文件储存方案?要求读文件时不用整个文件取出,因为一般只需读部分列;用户的请求路由到对应文件储存的机器上。 2.有更好的 parquet 处理方案吗?我现在用 pyarrow/pandas 处理,要求还是用 python 。

    1 条回复    2021-01-28 11:37:03 +08:00
    levelworm
        1
    levelworm  
       2021-01-28 11:37:03 +08:00
    我们公司之前是用 s3 + databrick 的,不过我也不太了解技术细节。。。同样也是大量 parquet 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1667 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 16:53 · PVG 00:53 · LAX 08:53 · JFK 11:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.