![]() |
1
BBCCBB 118 天前
flink?
|
![]() |
2
hpu423 118 天前
flink+clickhouse
|
![]() |
3
Jface 118 天前 via iPhone
对性能跟实时性有要求就 flink
没有要求用 spark 做实时也行 |
![]() |
4
corcre 118 天前
前端选型吗? power bi?
|
5
ppppppp123 OP @corcre 前后端都做的,前端是一个 vue admin board 类似的。后端需要自己实现。
|
6
ppppppp123 OP |
![]() |
7
1996wang 117 天前
flink + doris + 帆软 bi 看板.
简单可拓展性强.后面做下数据分层就是个数仓了 |
![]() |
8
FYFX 117 天前
我觉得你应该先说一下你们的开发资源,还有数据的量级,毕竟要上大数据的话维护的成本还是挺高的
|
9
ppppppp123 OP |
![]() |
10
Morii 117 天前
flink + Click house 的 累计计算引擎
话说订单量多大啊 |
11
ppppppp123 OP @Morii flink 和 ck 各自的作用是什么?公司所有的订单数据都是存储在 mysql 里的,我在担心实时性的问题。
|
12
sss15 117 天前
你不说数据量,没办法技术选型啊,如果一天就几百单,直接 mysql 里 sum 就行了何必上组件。
淘宝的双 11 的实时订单统计,各排行榜都是用 flink 做的,所以楼上那么多推荐 flink 的。 flink 可以去 b 站看视频,硅上谷的视频做的不错,版本也新 https://www.bilibili.com/video/BV133411s7Sa/?spm_id_from=333.337.search-card.all.click |
![]() |
13
OpenSea 117 天前
clickhouse 做实时的并发会成瓶颈吧
|
![]() |
14
SilenceLL 117 天前
flink cdc + doris
|
![]() |
15
lry 117 天前
手动打点,数据写入到 InfluxDB / Prometheus, 再配置 Grafana 面板。
|
![]() |
16
xieren58 117 天前
看数据量, 数据量少的话, 简单搞个定时任务就行啦.
|
17
datoujiejie221 117 天前
canal 监控 mysql 的订单数据扔到 kafka
消费 kafka 的数据做实时计算,每日的结果落库,数据量大的话考虑用 flink |
18
ppppppp123 OP |
19
bjfane 117 天前
确实,是场景不是很清楚,不过既然 mysql 能放的下 说明应该不会巨大, 没有人说 mysql 从库 sql 一把梭么?
一把梭不了,就从库定时执行缓存一下。 上 flink 是不是有点过分了。。。 |
![]() |
20
liprais 117 天前
十万单 mysql 搞个从库随便玩了
|
21
ppppppp123 OP @bjfane 选个 3 个月区间的查询就要汇总 100w 条订单数据,mysql 是不是吃不消了。
|
22
ppppppp123 OP @liprais 可以选一个时间区间,比如 3 个月进行汇总和取 top 。
|
![]() |
23
hexpop 117 天前
100W 也很轻松啊,千万级别的我都 MySQL 一把梭
|
24
ppppppp123 OP @hexpop 厉害!它这个需求要及时反馈,界面上点击查询就要出结果,时间上能不能保证啊?
|
![]() |
25
jamosLi 117 天前
@ppppppp123 21 再塞 es ?
|
26
VincentYe123 117 天前
订阅 mysql 消息,扔队列实时计算结果落库
|
![]() |
27
Morii 117 天前
@ppppppp123 #11 流处理 + OLAP 数据库
|
28
securityCoding 117 天前
这点数据 flink 过分了,汇总到 clickhouse 随便查
|
29
zeonll 117 天前
这点数据量,没必要建仓了,你甚至可以 canal + mysql
|
30
ppppppp123 OP @zeonll cannal 和 mysql 我看了下耦合蛮紧的
@securityCoding 感觉你这个方案可以!直接用 clickhouse 作为 mysql 的备份库,然后利用 ck 来汇总查询 |
31
ppppppp123 OP @securityCoding 上面 @OpenSea 说 ck 不适合实时的并发,这个是管理员端的数据看板,其实并发不太大。不知道 ck 可以近乎实时不?
|
32
XyIsMy 117 天前
@ppppppp123
如果大表各种 join 实时查询,ck 会弱些。如果数据已经进行了预聚合,单表查询,ck 查询还是可以的。 至于并发,你可以预估下,并发多少,低于 100 且没有 大聚合查询,问题不大 数据延迟问题,这个避免不了,数据同步本来就存在延迟,而且需要看同步的策略。例如:内网环境,canal 1 秒同步一次,理论延迟会在 2 秒内。业务方接受 2 秒的延迟,那就没问题了 |
33
XyIsMy 117 天前
@ppppppp123 如果不想折腾。直接用 mysql 也可以。把数据进行一层预处理就好。写个脚本,清洗统计数据,存到数据表内,直接查 统计表 数据即可
|
![]() |
34
MaxFang 117 天前
这个级别的数据量应该可以直接 mysql 查出来吧,近乎实时也可以做脚本每分钟汇总一次。
并且看目前要统计的需求,都是可以做到增量更新的吧。之前的数据归档存储+部分更新。 |
35
iwdmb 117 天前
每天 10 万单用不到 Flink 吧 ...
100000/(12*60)=138 用业务时段去估每分钟也才 138 张单 |
![]() |
36
b1ghawk 117 天前 via Android
我想先 mark 一下
|
37
dashan333 117 天前
监控 MySQL binlog , 使用工具同步到 clickhouse 。这个数据量,不用预聚合,不用使用 ck 的 summing ,直接 merge ,筛选条件都可以自定义
|
38
yibo2018 117 天前
如果条件允许的话,其实可以玩玩 flink 的
|
![]() |
39
OpenSea 117 天前
@ppppppp123 我们遇到的场景,购买的某云低配 ck ,列表显示聚合订单实时数据,并发到 100 就撑不住了。最后优化掉了 ck
|
40
ppppppp123 OP @OpenSea 后面是怎么改进的?
|
41
ppppppp123 OP 复杂的场景怕到时候坑多,越简单处理越好。
|
![]() |
42
Xusually 117 天前 via iPhone
就这数据量 mysql 搞个从库专门查就行了,复杂组件都不用上
|
![]() |
43
OpenSea 117 天前
@ppppppp123 大概流程是监听 binlog ,每日初始化后做增量计算,结果存储到 redis 读取。我们展示的数据有数仓计算的历史数据和业务操作的实时数据。我们有个前提是 ck 费用不低但是满足不了要求(可能业务结合的不好)
|
![]() |
45
BQsummer 117 天前
doris, 同步可以用 flink cdc / canal / 自己写也行
|
![]() |
46
goodryb 117 天前
业务场景还是要定义清楚,是 BI 报表,还是聚合查询
报表类业务通常都是 T+1 处理,结果数据单独存放,每次请求直接查结果数据;如果是实时报表,那就得上实时计算 如果是聚合查询,那这个就看量大小了,不复杂的话通过数据库也行,如果规模较大就得上数仓 |
![]() |
47
1996wang 117 天前
可以看看 doris 的外表功能: https://doris.apache.org/zh-CN/docs/dev/lakehouse/external-table/jdbc?_highlight=mysql#mysql
好处是不用考虑数据导入的事情,近实时应该没问题. 导入的话就用 flink-cdc. 对比 ck,单机性能没有 ck 强.但是运维简单,文档中文. 还有个优点,doris 可以直接对接很多 bi 看板(当作 mysql),后面看板开发就很省功夫. |
![]() |
48
NoString 117 天前
clickhouse 巨吃配置,并发的场景并不理想,每日 10w 单,三个月千万的数据,mysql 应该就能抗,针对这个需求要毫秒级响应就上 Redis 维护一份 Topk 的数据,一个 Redis 维护几十万店面的各种数据 key 下来成本还是很低的。
但是如果要做各种复杂纬度的看板,还是老老实实建数仓,Clickhouse ,Doris 都可以,考虑聚合场景多机器预算高就 Clickhouse ,报表中间加层 Redis 缓存,实时并发性能也不会差(具体可以参考腾讯音乐的方案,之前在 CK 的分享上他们就是这种模式) |
49
shinession 117 天前
插个眼, flink 第一次听说, 了解先
|
50
securityCoding 117 天前
@ppppppp123 汇总一张宽表,管理员看板没啥并发 ck 随便查的
|
![]() |
51
zoharSoul 117 天前
对内 flink/ clickhouse
对外 es |
![]() |
52
shenqi 117 天前
有没有考虑 mysql -> hive +kylin -> superset 一条龙梭哈,都不用怎么写代码,只写 sql 和模型。
但是没那么实时,当然这点数据量,做成实时同时压力不大,模型计算你都实时了,kylin 也会没啥压力。 |
53
jeesk 117 天前
10w ,java stream 都能搞.
|
![]() |
54
aw2350 117 天前
如果每天 10w 的数据,写 sum 窗口函数 group by 之类的查询,单日的数据查询结果应该永不了 3s 吧?或者在业务层面 分库分表,每个业务大类一个库,那样子压力就更小了
|
![]() |
55
aw2350 117 天前
对了,还不能因为看板的查询操作阻塞主业务的进行,上主从吧,看板的查询数据走从库,减轻主库的压力
|
![]() |
56
netnr 117 天前 via Android
我会使用中间表 一张按天汇总 一张按小时汇总(只存储当天),根据具体情况还可以加按月 年汇总的中间表
每个小时跑一次汇总任务 查询根据时间段拆分查询 也就是空间换时间 |
![]() |
57
akira 117 天前
直接 mysql sum 一把梭, 有 性能问题 先考虑 sql 优化 次之升级 mysql ,最后才是考虑上别的东西
|
![]() |
58
acerphoenix 117 天前
业务上没必要考虑并发,这种数据才几个能人看?
这点数据量,设计方向是简单成本低,别想啥响应啊性能啊,没必要;实时只是相对每天一统计而言。 但是为了保证线上业务,不能用生产库直接搞,太无脑了,怎么也得同步出一份数据来,我们直接直接 java 内存数据库跑都挺好,也不用持久化,计算灵活方便。 |
59
Pantheoon 116 天前
这种数据量用不上 flink,场景是 olap,查询语句固定就那些,没有并发,es,clickhouse,配置高点的 mysql 都比较合适
|