现在业界处理大数据不用 spark hadoop 了？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 831 天前的主题，其中的信息可能已经有所发展或是发生改变。

昨天和一个博四的师弟聊到这。我说我之前处理大数据用这些东西。他好像先说了一句没听过，后来又说这些工具都淘汰不用了。

真这么快就淘汰不用了么？还是遇上了一个无语的师弟。

师弟

hadoop

淘汰

Spark

22 条回复 • 2022-10-14 13:49:10 +08:00

liprais

2022-10-01 16:57:47 +08:00 via iPhone

他连班都没上过懂啥

billlee

2022-10-01 19:24:52 +08:00 via Android

Hadoop mapreduce 确实不用了，他能做的 spark 都能做并且做得更好

mythabc

2022-10-01 19:26:25 +08:00

HDFS\YARN 还在用，其他 hadoop 生态上的东西在式微。spark 还在用

Moeyua

2022-10-01 19:29:49 +08:00 via iPhone

？我去年毕设还是 Hadoop 和 spark ，过时可以，没听过就过分了吧。

haya

2022-10-01 19:41:49 +08:00

想知道他用的啥

levelworm

2022-10-01 20:16:57 +08:00 via Android

spark 用的还是很多啊。

leonme

2022-10-01 22:27:37 +08:00 via iPhone

@billlee 计算的数据超过内存上限呢？

berserk

2022-10-01 22:30:46 +08:00

@billlee 我说 hadoop 主要指的是分布式文件系统那些东西，那个生态。

jiezhi

2022-10-01 22:48:41 +08:00

Hadoop 的 HDFS 、YARN ，加上 Hive 、Spark 、Flink 这样，MapReduce 基本没人写了吧。

Maxwe11

2022-10-02 01:15:41 +08:00

没上过班儿的闲扯啥，国内计算机知名的系统包括中科院在内，这种学校体系最差的就是业务理解，总以为最新的就是 i 最好的，但企业是讲场景、讲成本的；

你说 hadoop 里写 mapreduce 确实现在不会有人做了，但是其他的咋就没人用了，不谦虚的说，我还没出来转型做健康前，在集团数据中心做核心数据，收单业务国内 top 级别年万亿级别，hadoop 里 hive 、spark 现在就算我不在了，业务那边现在也照样跑的飞起，论业务量效率精度要求及业务复杂度合规性成本要求等等要考虑的角度非常多，哪里有什么新的技术都一并解决了，你都没真接受过大数据业务的洗礼，就敢大言不惭说淘汰了？

flink 重在实时，spark 优在准实时高频小批，hive 大数据量离线非业务高峰时段显然是互补的好帮手，照这么说，关系型数据库这么老，sql 没法再古董了，是不是也都要淘汰，干嘛新出的工具反而都想方设法还要去兼容这种设计乃至类 sql 语法呢；

越是没真遭过罪的，说话越是缺少这一股谦卑。

shiny

2022-10-02 01:38:58 +08:00 via iPhone

我几年前买的 Hadoop 书的塑封膜还没拆，它就被淘汰了？

Takizawa

2022-10-02 09:12:58 +08:00 via Android

我在 6 年前接触的这方面的时候，mapreduce 就已经算过时了，那时候就用 spark 很多了。2022 年的博四的话，那跟我的学生生涯时间刚好是完全重合的，没听过可能确实是接触面窄了。

winglight2016

2022-10-02 09:32:14 +08:00

两年前 flink 刚出来的时候，就已经在说 flink 会取代 spark 了，现在看来的确有这个趋势，因为 spark 能做的 flink 基本都能做，反之不是。但是，我在生产环境中应用 flink 的时候发现，虽然被阿里收购了，但是 bug 是真的多，想也想不到的问题也很多，而且关联表层级一多，很容易导致反压爆炸，无法同步。所以，我现在正想办法看看能不能用 spark 去做一部分数据合并的处理。

btw ，有个问题请教大神：现在是不是都趋向使用 spark/flink sql 这种方式来处理数据了？毕竟企业里 DB 作为数据源更普遍一些。

yuhu96

2022-10-02 13:36:24 +08:00 via iPhone

我寻思在高校搞得那些 toy 数据集或者导师接的项目那点数据量也用不着花 spark hadoop 处理吧

yuhu96

2022-10-02 13:39:01 +08:00 via iPhone

我司很多老任务都是跑 hive ，orcale 。突出一个稳定。新任务常用 spark ，实时要求高的才用 flink 。数据一直是 hdfs 。

billlee

2022-10-02 14:23:09 +08:00 via Android

@berserk 生态上的东西，yarn 设计上和离线计算耦合太深，flink 估计是要全面转向 k8s 的。存储方面新出来的应用在转向 s3 云原生。以后留在 hadoop 生态上的应用估计就只有 spark sql 了, 从这个角度来看确实没有发展前景了

berserk

2022-10-03 20:34:10 +08:00

@yuhu96 对，就是高校里面接触不到。我后来找他问了。他说和别的东西弄混了，才说这个被淘汰了。哎，也说不出具体和什么弄混了。就是扯淡。

berserk

2022-10-03 20:35:52 +08:00

@billlee 要是我当时问他是 spark hadoop flank ，估计得到他的相应是一样的。他就是没听过，又以为我离开互联网很久了，其实才半年，就虎我这些都被淘汰了。

superchijinpeng

2022-10-09 10:21:05 +08:00

都用啊，你看社区活跃度就知道了

superchijinpeng

2022-10-09 10:21:28 +08:00

补充：Yarn 不用了，现在都在 K8S 上

dtgxx

2022-10-11 14:50:48 +08:00

一个做水产养殖的博士生，没听过 spark 的话，很正常，毕竟专业不对口。

berserk

2022-10-14 13:49:10 +08:00

@dtgxx 关键不是没听过，关键是信口开河说这个过时了。