V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  sunrealzhang  ›  全部回复第 1 页 / 共 1 页
回复总数  20
101 天前
回复了 aaxaax 创建的主题 生活 中秋三天大家什么安排?
玩英雄联盟大乱斗,单排+组排;追剧;胡吃海塞;自考看看书(不是)
按着官方文档教程来应该都能成功,最好别往上这找点那抄点的,完了最后都拼不上
126 天前
回复了 abc0def 创建的主题 程序员 从 n 个数里面随机取 m 个数
就每次用 random 函数来根据数组可用元素长度随机取一个下标来找到元素,完了把它和数组最后一个空闲下标元素替换,这时数组可用元素长度-1 ,然后再用 random 函数以此类推着来,取够为止
@zhangsimon 我看怎么是 30 多
@sunrealzhang 看起来没什么特别的,和我日常打的 jar 包没啥区别,看来帮不到你了不好意思
@5bb864e1fc775087 META-INF/MANIFEST.MF 文件里有类似
Spring-Boot-Lib: BOOT-INF/lib/
的配置吗,是用 springboot 的插件打的包吗
打包的问题吧,包里 classpath 之类的文件有包含你的那些依赖包吗
2023-12-14 09:52:52 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
@sunrealzhang 说错了,是 UNION..
2023-12-14 09:52:28 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
@OOKAMI 感谢您的回复,我仔细看了下,语义应该和我的需求不符,如果某个 AAC001 未命中第一段 join 而只命中了第二段 join ,依然能被查出来,而它并不是 2018 年开始新参保,而是 2018 年之前有过参保记录。
2023-12-14 09:50:10 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
@Maboroshii 感谢回复,我想大概也得这样,同步数据时需要对数据进行额外处理,在 clickhouse 上缓存首次参保状态
2023-12-14 09:46:30 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
@9yu 谢谢嗷 0.0
2023-12-14 09:45:54 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
@9yu 感谢您的回复,实际上在 Oracle 上我们使用的 NOT EXISTS ,我想在 clickhouse 上,我们需要在数据同步时对数据本身进行额外的预处理来缓存首次参保状态,原封不动的使用 clickhouse 来支持完成业务需求是我们的一厢情愿 0.0
2023-12-14 09:42:36 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
@512357301 感谢您的回复,我也尝试了 LEFT JOIN 语法,基本等同于 2 楼的方案,性能没有提升
2023-12-14 09:41:21 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
@hicdn 动态查询,我们准备把 oracle 的部分可能会导致高负载的查询统计 sql 转移到统计分析类数据库 clickhouse 上
2023-12-13 17:56:12 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
这个 sql 给我整不会了,开始感觉如果不对表结构和数据进行处理,无法通过这个数据库来满足我们的统计分析需求 0.0
2023-12-13 17:54:41 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
@OOKAMI 感谢您的回复,实际上,clickhouse 对 EXISTS 语法不完全支持,特别是子查询中无法引用外部表和列,这会导致执行时提示 Missing columns: 'A.AAC001',这也是我将 oracle 中的 NOT EXISTS 改成 NOT IN 的原因
2023-12-13 17:50:51 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
@sss15 感谢您的回复,首先连接处应该是 ON t0.TID = A.AAC001 ,然后,AAC001 是这张表的联合主键之一,类型为 Int64 ,未关联上时值不是 NULL 而是 0 (这一点我也不知道为什么要这么实现,按理说未关联上不应该是 NULL 吗),然后我执行了 该查询,依然很慢
```
EXPLAIN indexes = 1 SELECT
COUNT( 1 ) AS "新参保人数"
FROM
AC02_TEMP AS A
LEFT JOIN ( SELECT B.AAC001 AS TID FROM AC02_TEMP AS B WHERE B.AAC030 < '2018-01-01 00:00:00' ) AS t0 ON t0.TID = A.AAC001
WHERE
A.AAB301 IN ( SELECT AAB301 FROM AA26 WHERE AAA148 = '130800' )
AND A.AAE200 = '41'
AND A.AAC031 = '1'
AND A.AAC030 >= '2018-01-01 00:00:00'
AND t0.TID = 0;
```

执行计划
```
CreatingSets (Create sets before main query execution)
Expression ((Projection + Before ORDER BY))
Aggregating
Expression (Before GROUP BY)
Filter (WHERE)
Join (JOIN FillRightFirst)
Filter (( + Before JOIN))
ReadFromMergeTree (default.AC02_TEMP)
Indexes:
PrimaryKey
Keys:
AAE200
" Condition: (AAE200 in ['41', '41'])"
Parts: 2/2
Granules: 4821/4821
Expression ((Joined actions + (Rename joined columns + (Projection + Before ORDER BY))))
ReadFromMergeTree (default.AC02_TEMP)
Indexes:
PrimaryKey
Condition: true
Parts: 2/2
Granules: 4821/4821
CreatingSet (Create set for subquery)
Expression ((Projection + Before ORDER BY))
ReadFromMergeTree (default.AA26)
Indexes:
PrimaryKey
Condition: true
Parts: 1/1
Granules: 1/1

```
2023-12-13 17:38:16 +08:00
回复了 sunrealzhang 创建的主题 ClickHouse 求大佬优化一下 3000 万数据的 NOT IN 查询
NOT IN 里的数据大概有两千多万
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5908 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 23ms · UTC 02:16 · PVG 10:16 · LAX 18:16 · JFK 21:16
Developed with CodeLauncher
♥ Do have faith in what you're doing.