V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
kimibob
V2EX  ›  问与答

请教一下 Spark 中如何将多个 Spark ml 模型应用到单个 Dataset/DataFrame 的每个分区中,实现一次运行训练多个模型?

  •  
  •   kimibob · 2021-08-27 13:36:33 +08:00 · 641 次点击
    这是一个创建于 1219 天前的主题,其中的信息可能已经有所发展或是发生改变。

    类似于如下的操作,根据 key 分组,对每个分组应用 mllib 里的算法训练一个模型

    val input = spark.read.load(..)
    val models = input
      .groupByKey(x => x.age)
      .mapGroups{
        (k, v) => 
          val subset = v.toList.toDS
          someModel.fit(subset)
      }
      
    

    mllib 的算法好像需要接收 rdd 类型数据,但分组后的数据是 Iterable ?

    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1340 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 17:46 · PVG 01:46 · LAX 09:46 · JFK 12:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.