有什么好的办法可以用 Flink/Spark 高效率并行处理大量大小不一的压缩数据

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Apache Hadoop

› Treasure Data

这是一个创建于 2045 天前的主题，其中的信息可能已经有所发展或是发生改变。

数据格式都是 gzip 压缩，都没法切分，只能一个线程读一个文件，很多时候小文件早就处理完了，但大文件会非常慢。有没有什么好的办法可以让 gzip 变得 splittable

2 条回复 • 2020-03-12 09:33:25 +08:00

alya

2020-03-11 15:13:13 +08:00

换 snappy

kex0916

2020-03-12 09:33:25 +08:00

可以先将大文件解压缩后放到 hdfs 上后再做计算，或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种