V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
DRcoding
V2EX  ›  问与答

有了解 ETL 工具的吗?

  •  
  •   DRcoding · 2015-10-21 11:44:05 +08:00 · 2545 次点击
    这是一个创建于 3353 天前的主题,其中的信息可能已经有所发展或是发生改变。

    前阵子由于项目需要学习了 kettle 用于数据对接,觉得蛮强大的,而且还是开源的。

    了解了一下甚至有专门做数据对接的公司。

    然而现在公司的规划是做一个数据集成平台用于公司的各个产品线,主要是用于数据对接。研究了下现在做 ETL 的公司的产品,以及一些 ETL 调度平台感觉要做还是能做的蛮复杂的,表示毫无思路,想基于 kettle 做二次开发 ,但不知该从哪里下手。

    有接触过这方面的能指点一二否?

    10 条回复    2015-10-22 14:19:03 +08:00
    saharabear
        1
    saharabear  
       2015-10-21 11:52:46 +08:00
    Kettle 应该是很强大了。我也在研究 Kettle ,但是时间不多,进展缓慢。
    shakoon
        2
    shakoon  
       2015-10-21 12:02:08 +08:00   ❤️ 1
    前几年做过 ETL ,但用的是商业产品( Datastage ),但猜想和其他产品业务逻辑上是相同的。看你描述,相当于是建设一个小型的仓库。最简单的方式就是直接把各个系统的源表整个导入到仓库,然后在仓库这边再来自己慢慢折腾,建主题域整合、统一编码转换什么的
    MozzieCN
        3
    MozzieCN  
       2015-10-21 12:53:01 +08:00
    Kettle 的二次开发挺简单的。 不算太复杂 。
    至于调度 , 建议是自己上个调度平台吧。
    DRcoding
        4
    DRcoding  
    OP
       2015-10-21 14:07:10 +08:00
    @saharabear 也是工作上用到了才去研究了下,又从 kettle 看了下 BI 方面的数据仓库数据数据集成方面的东西。发现做 ETL 方面的大都是些封闭的金融行业,估计他们不上 V 站,哈~
    DRcoding
        5
    DRcoding  
    OP
       2015-10-21 14:09:42 +08:00
    @shakoon 嗯 是的,数据仓库方面未曾涉及多少,搜了部分资料,大都在扯大方面的理论,并未讲太多具体,还得研究下,:)
    cloud107202
        6
    cloud107202  
       2015-10-21 14:11:41 +08:00   ❤️ 1
    二次开发大多是新组件开发(trans/job 中的 step),
    dc 调度相关的话, kettle 自己封装了 servlet 接口 http://wiki.pentaho.com/display/EAI/Carte+Web+Services
    DRcoding
        7
    DRcoding  
    OP
       2015-10-21 14:17:52 +08:00
    @MozzieCN 如果只是在后台调用转换和作业倒是没什么复杂,主要是二次开发涉及 kettle 界面的修改或者新增一些功能组件,这方面我倒是没有从官方文档找到太多有用的东西,你是怎么做的呢?

    调度平台的话看过一些如 Control-M 都已快没落的没维护了~

    好忧桑的造轮子的赶脚。
    MozzieCN
        8
    MozzieCN  
       2015-10-21 17:22:16 +08:00   ❤️ 1
    @DRcoding 组件挺好开发的。记得 Kettle 官方是有个文档 Demo 的。
    按照他的例子很快就能上手 。那年我们开发了 N 多的组件。。包括修改 原有组件的 Bug......
    MozzieCN
        9
    MozzieCN  
       2015-10-21 17:24:20 +08:00
    DRcoding
        10
    DRcoding  
    OP
       2015-10-22 14:19:03 +08:00
    @cloud107202 谢谢,我研究一下~

    @MozzieCN 修改了原有组件的 bug ,有没有 commit 给官方~哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5948 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 02:30 · PVG 10:30 · LAX 18:30 · JFK 21:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.