
刚开始用 spark,很多东西不清楚,不过时间紧迫所以来请教下。
spark 的 rdd 能不能快速合并的?我现在有 30 分钟的数据需要滑动处理。每一分钟向前滑动一次,就是说 31 分的时候,读取 30-31 分钟的数据加进去,把 00-01 分钟的数据删除,那么我设想是构建 30 个 rdd,每一分钟一个。计算的时候合并这 30 个 rdd。请问这样的操作有没有?就那个合并的操作会不会很慢?
1 cstj0505 Jun 14, 2018 看看 spark streaming 里面的 window 功能,不要自己去撸 再就是 rdd 是只读的,没有删除,只能新生成或者计算出来一个 |
2 VoidChen OP 顺便问下,刚看到有个分区的概念,不知能不能利用上 |
3 ywind Jun 14, 2018 via Android 按 1 分钟分片,按 30 分钟 window 聚合。 |
4 ywind Jun 14, 2018 via Android 分区概念是针对于每个 rdd 的,用不上 |