经过采样得到这样一组数据[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,3,5,6,14,45,67,88,99,123,1111,2343]
这些数表示某件事情发生的次数,实际上这个数组长度是百万级别的。由于像 1,2,3 这种出现次数少的没有意义。所以要删除。现在问题是应该怎么样去找临界值。比如是应该把 10 以下的数不要了,还是把 100 以下的数不要。

经过采样得到这样一组数据[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,3,5,6,14,45,67,88,99,123,1111,2343]
这些数表示某件事情发生的次数,实际上这个数组长度是百万级别的。由于像 1,2,3 这种出现次数少的没有意义。所以要删除。现在问题是应该怎么样去找临界值。比如是应该把 10 以下的数不要了,还是把 100 以下的数不要。
1 wysnylc May 26, 2020 你的业务我们怎么知道? |
2 dolphintwo May 26, 2020 我帮你决定吧,把一万一下的不要了,比较清爽 |
3 andy12530 May 26, 2020 25 分位数,75 分位 |
4 across May 26, 2020 条件是不是少了 比如你数字都在 10000 以内,直接建个数组统计一遍就得了 |
5 black11black May 26, 2020 百万级远没到计算机性能瓶颈,问了白问,我感觉你这个问题改成百亿级还有点讨论的价值。。 |
6 JackieMe May 26, 2020 via Android 找个分布拟合一下,泊松分布二项分布什么的,然后切掉最小的 5%? |
7 dbw9580 May 26, 2020 via Android 时间序列?和滑动平均数比较 |
8 Jooooooooo May 26, 2020 其实是找异常点, 建议你用四分法和 LOF 一起搞一下, 基本上就差不多了 |
9 CopenhagenCat May 27, 2020 四分位距 IQR,可以尝试一下 |