V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
berserk
V2EX  ›  问与答

现在业界处理大数据不用 spark hadoop 了?

  •  
  •   berserk · 65 天前 · 1984 次点击
    这是一个创建于 65 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨天和一个博四的师弟聊到这。我说我之前处理大数据用这些东西。他好像先说了一句没听过,后来又说这些工具都淘汰不用了。

    真这么快就淘汰不用了么?还是遇上了一个无语的师弟。

    22 条回复    2022-10-14 13:49:10 +08:00
    liprais
        1
    liprais  
       65 天前 via iPhone   ❤️ 5
    他连班都没上过懂啥
    billlee
        2
    billlee  
       65 天前 via Android
    Hadoop mapreduce 确实不用了,他能做的 spark 都能做并且做得更好
    mythabc
        3
    mythabc  
       65 天前
    HDFS\YARN 还在用,其他 hadoop 生态上的东西在式微。spark 还在用
    Moeyua
        4
    Moeyua  
       65 天前 via iPhone
    ?我去年毕设还是 Hadoop 和 spark ,过时可以,没听过就过分了吧。
    haya
        5
    haya  
       65 天前
    想知道他用的啥
    levelworm
        6
    levelworm  
       65 天前 via Android
    spark 用的还是很多啊。
    leonme
        7
    leonme  
       65 天前 via iPhone
    @billlee 计算的数据超过内存上限呢?
    berserk
        8
    berserk  
    OP
       65 天前
    @billlee 我说 hadoop 主要指的是分布式文件系统那些东西,那个生态。
    jiezhi
        9
    jiezhi  
       65 天前
    Hadoop 的 HDFS 、YARN ,加上 Hive 、Spark 、Flink 这样,MapReduce 基本没人写了吧。
    Maxwe11
        10
    Maxwe11  
       65 天前   ❤️ 5
    没上过班儿的闲扯啥,国内计算机知名的系统包括中科院在内,这种学校体系最差的就是业务理解,总以为最新的就是 i 最好的,但企业是讲场景、讲成本的;

    你说 hadoop 里写 mapreduce 确实现在不会有人做了,但是其他的咋就没人用了,不谦虚的说,我还没出来转型做健康前,在集团数据中心做核心数据,收单业务国内 top 级别年万亿级别,hadoop 里 hive 、spark 现在就算我不在了,业务那边现在也照样跑的飞起,论业务量效率精度要求及业务复杂度合规性成本要求等等要考虑的角度非常多,哪里有什么新的技术都一并解决了,你都没真接受过大数据业务的洗礼,就敢大言不惭说淘汰了?

    flink 重在实时,spark 优在准实时高频小批,hive 大数据量离线非业务高峰时段显然是互补的好帮手,照这么说,关系型数据库这么老,sql 没法再古董了,是不是也都要淘汰,干嘛新出的工具反而都想方设法还要去兼容这种设计乃至类 sql 语法呢;

    越是没真遭过罪的,说话越是缺少这一股谦卑。
    shiny
        11
    shiny  
       65 天前 via iPhone
    我几年前买的 Hadoop 书的塑封膜还没拆,它就被淘汰了?
    Takizawa
        12
    Takizawa  
       64 天前 via Android
    我在 6 年前接触的这方面的时候,mapreduce 就已经算过时了,那时候就用 spark 很多了。2022 年的博四的话,那跟我的学生生涯时间刚好是完全重合的,没听过可能确实是接触面窄了。
    winglight2016
        13
    winglight2016  
       64 天前
    两年前 flink 刚出来的时候,就已经在说 flink 会取代 spark 了,现在看来的确有这个趋势,因为 spark 能做的 flink 基本都能做,反之不是。但是,我在生产环境中应用 flink 的时候发现,虽然被阿里收购了,但是 bug 是真的多,想也想不到的问题也很多,而且关联表层级一多,很容易导致反压爆炸,无法同步。所以,我现在正想办法看看能不能用 spark 去做一部分数据合并的处理。

    btw ,有个问题请教大神:现在是不是都趋向使用 spark/flink sql 这种方式来处理数据了?毕竟企业里 DB 作为数据源更普遍一些。
    yuhu96
        14
    yuhu96  
       64 天前 via iPhone
    我寻思在高校搞得那些 toy 数据集或者导师接的项目那点数据量也用不着花 spark hadoop 处理吧
    yuhu96
        15
    yuhu96  
       64 天前 via iPhone
    我司很多老任务都是跑 hive ,orcale 。突出一个稳定。新任务常用 spark ,实时要求高的才用 flink 。数据一直是 hdfs 。
    billlee
        16
    billlee  
       64 天前 via Android
    @berserk 生态上的东西,yarn 设计上和离线计算耦合太深,flink 估计是要全面转向 k8s 的。存储方面新出来的应用在转向 s3 云原生。以后留在 hadoop 生态上的应用估计就只有 spark sql 了, 从这个角度来看确实没有发展前景了
    berserk
        17
    berserk  
    OP
       63 天前
    @yuhu96 对,就是高校里面接触不到。我后来找他问了。他说和别的东西弄混了,才说这个被淘汰了。哎,也说不出具体和什么弄混了。就是扯淡。
    berserk
        18
    berserk  
    OP
       63 天前
    @billlee 要是我当时问他是 spark hadoop flank ,估计得到他的相应是一样的。他就是没听过,又以为我离开互联网很久了,其实才半年,就虎我这些都被淘汰了。
    superchijinpeng
        19
    superchijinpeng  
       57 天前
    都用啊,你看社区活跃度就知道了
    superchijinpeng
        20
    superchijinpeng  
       57 天前
    补充:Yarn 不用了,现在都在 K8S 上
    dtgxx
        21
    dtgxx  
       55 天前
    一个做水产养殖的博士生,没听过 spark 的话,很正常,毕竟专业不对口。
    berserk
        22
    berserk  
    OP
       52 天前
    @dtgxx 关键不是没听过,关键是信口开河说这个过时了。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1207 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 21:34 · PVG 05:34 · LAX 13:34 · JFK 16:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.