
现在有这么一个需求,原始数据的格式是
小明 语文成绩,数学成绩,英语成绩
所以 RDD 的格式就为
JavaPairRDD<String, String> chengji; 其中 chengji 数据结构为<小明,[语文成绩,数学成绩,英语成绩]>
现在想把这一个 RDD 拆分成 3 个 RDD
即 JavaPairRDD<小明,语文成绩>
JavaPairRDD<小明,数学成绩>
JavaPairRDD<小明,英语成绩>
这个应该怎么写 请教, 用 flatmap 可以做么? 谢谢!
1 zhusimaji 2018-03-29 23:15:30 +08:00 via iPad 不可以啊,flatmap 就是先 map 后 flat 展开,你要是拆开三个 rdd,最简单的就是 map 三次 |
2 liucudliucud 2018-03-29 23:19:08 +08:00 不用拆,放在一起处理 |
3 capric 2018-03-29 23:41:35 +08:00 via Android sparksql 支持 array explode select expode(items) as item |
4 anonymoustian OP @zhusimaji 但是我是举个例子。。 就是 这个个数是不同的。 每个 RDD 是 N 个 ,N 各不相同 |
5 anonymoustian OP @capric 这个在 hive 里是一个字符串处理的,也可以这么做么 |
6 anonymoustian OP @liucudliucud 但是要用这个做 reducebykey |
8 zjxzhqq 2018-03-29 23:59:04 +08:00 via Android map 就可以了 |
9 zjxzhqq 2018-03-29 23:59:29 +08:00 via Android 升级吧,用 ds |
10 capric 2018-03-30 00:02:47 +08:00 via Android |
11 anonymoustian OP @capric 非常感谢 已经成功了,谢谢。 另外我很好奇有没有其他的做法呢? |
12 capric 2018-03-30 00:18:05 +08:00 via Android @anonymoustian 函数级别也支持 df.withColumn("tag", explode($"tags")) |
13 zhusimaji 2018-03-30 07:30:51 +08:00 via iPhone @anonymoustian。。。你用 sparksql explode 也只是生成 dataframe,最后做成单独的 rdd,还是要转换 |
14 liucudliucud 2018-03-30 08:55:46 +08:00 via Android 把数据 flatten 再详细写 reduce 方法呗 可以详细说下需求 类似于 name type score |
15 liucudliucud 2018-03-30 08:56:53 +08:00 via Android 拆 rdd 这种一个两个还可以,多了效率很低的,强行串行了 |