1
ericguo 2022-06-30 14:44:04 +08:00
写代码,比如 python 脚本可以替代这里的绝大多数方案,并且技能更通用,更灵活。
不高兴写代码 Kettle (我们在用)应该还是比阿里的靠谱点,如果用 Kettle 卡死,多半是内存不够,给够会好一点,和 ES 当然肯定也得分机器跑。 |
2
yeyang5211 OP @ericguo 感谢回复, 如果行业解决方案是 Kettle 我也想学(私心想学更通用的行业方案)
|
3
ericguo 2022-06-30 14:51:41 +08:00
@yeyang5211 更通用的是 python ,Pandas/Matplotlib 那套,而且写代码你适应了真心不高兴拖拉界面,因为拖拉界面每次都要重新搞,又看不到历史改动。
|
4
Mithril 2022-06-30 14:55:18 +08:00
MongoDB 的结构如果和 ES 一样的话,直接同步更新进去就行
自己写代码的话有 ChangeStream 不想写代码也可以找个第三方组件自动更新进去 更新是实时的,不需要定期跑任务 |
5
EastLord 2022-06-30 14:55:37 +08:00
了解一下 debezium ,看看是否满足需求
|
6
yeyang5211 OP @ericguo 好的, 我们公司的开发语言是 java(现在也是 java 来处理 etl),我个人理解 python 好像差不多. 麻烦能指点下 python 来处理数据合并有什么优势吗.
|
7
yeyang5211 OP |
8
litchinn 2022-06-30 15:21:51 +08:00
想顺便问问 streamsets dc 咋样,我使用起来感觉还行呀,很少看到人用呢
|
9
ericguo 2022-06-30 15:23:23 +08:00
@yeyang5211 没啥优势,硬要说有的话,数据处理这块用 python 的多一点。
|
10
HanMeiM 2022-06-30 16:39:56 +08:00
我们是用的 flink
|
11
lixen9 2022-06-30 17:16:07 +08:00
kafka connect 应该也能满足
|
12
yeyang5211 OP |
13
yeyang5211 OP @litchinn 刚刚去看了下 社区版的部署还要授权.. 服务还要被监控 功能倒是很齐全
|
14
wdmcode 2022-06-30 18:09:28 +08:00
Flink 可以写 Flink SQL 直接同步到 ES ,Flink CDC 可以捕获 MySQL 中的变更数据同步到 ES
|
15
kkadmin 2022-07-01 09:48:08 +08:00
elasticsearch-datatran ,不知道这个可不可以帮到你
|
16
yeyang5211 OP @wdmcode 最后选定是 Flink 来做, 因为领导力推 让我去学..
不过 es 我也是半路出家,带薪学习大数据相关技术也好. 以后还能互相成就. |