经过采样得到这样一组数据[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,3,5,6,14,45,67,88,99,123,1111,2343]
这些数表示某件事情发生的次数,实际上这个数组长度是百万级别的。由于像 1,2,3 这种出现次数少的没有意义。所以要删除。现在问题是应该怎么样去找临界值。比如是应该把 10 以下的数不要了,还是把 100 以下的数不要。
1
wysnylc 2020-05-26 15:33:20 +08:00
你的业务我们怎么知道?
|
2
dolphintwo 2020-05-26 15:36:11 +08:00
我帮你决定吧,把一万一下的不要了,比较清爽
|
3
andy12530 2020-05-26 15:36:33 +08:00
25 分位数,75 分位
|
4
across 2020-05-26 15:40:49 +08:00
条件是不是少了···
比如你数字都在 10000 以内,直接建个数组统计一遍就得了 |
5
black11black 2020-05-26 19:04:47 +08:00
百万级远没到计算机性能瓶颈,问了白问,我感觉你这个问题改成百亿级还有点讨论的价值。。
|
6
JackieMe 2020-05-26 21:31:50 +08:00 via Android
找个分布拟合一下,泊松分布二项分布什么的,然后切掉最小的 5%?
|
7
dbw9580 2020-05-26 21:58:52 +08:00 via Android
时间序列?和滑动平均数比较
|
8
Jooooooooo 2020-05-26 22:01:54 +08:00
其实是找异常点, 建议你用四分法和 LOF 一起搞一下, 基本上就差不多了
|
9
CopenhagenCat 2020-05-27 10:32:47 +08:00
四分位距 IQR,可以尝试一下
|