spark 将 dataframe 写到 hdfs 为什么会如此耗时？ - V2EX

spark 将 dataframe 写到 hdfs 为什么会如此耗时？ - V2EX

Home Sign Up Sign In

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

请不要在回答技术问题时复制粘贴 AI 生成的内容

This topic created in 3048 days ago, the information mentioned may be changed or developed.

公司这边有个数据聚合的任务，聚合的过程中遇到了数据倾斜，通过局部聚合和全局聚合的方式解决，速度提升了很多，12G 的数据大概需要 15 分钟左右聚合完，但是在最后以 json 格式的文件存储到 hdfs 上时特别耗时，而且偶尔会报内存溢出，spark.default.parallelism 设置的是 200，最后保存时是这么写的：df.repartition(20).write.json(savePath)，求 spark 大神指点我哪里有问题，该怎么解决这个问题？谢谢。

18 replies 2017-12-26 16:24:21 +08:00

1

linuxchild

Dec 25, 2017

压缩一下再写试试

2

wudc

OP

Dec 25, 2017

@linuxchild 嗯，谢谢，我加上了这段代码 df.persist(StorageLevel.MEMORY_AND_DISK_SER)，现在程序在跑

3

F281M6Dh8DXpD1g2

Dec 25, 2017

df.repartition(20) 这样不是只起二十个 partition 在写么
直接 df.write.json 试试?

4

wudc

OP

Dec 25, 2017

@liprais 想最后把结果写到 20 个文件中

5

mind3x

Dec 25, 2017

用 coalesce(20) 试试

6

zhusimaji

Dec 25, 2017 via iPhone

@wudc 你这个只是数据持久化

7

zhusimaji

Dec 25, 2017 via iPhone

@wudc 可以看下 spark job 看看卡在哪了

8

Mondoz

Dec 25, 2017

同 coalesce

9

wudc

OP

Dec 25, 2017

@zhusimaji 卡在 df.repartition(20).write.json(savePath)这行了，数据量比较小时还可以但是数据量一大就栈溢出

10

wudc

OP

Dec 25, 2017

@Mondoz
@mind3x
好的，改成 coalesce 已经在测试，谢谢。

11

F281M6Dh8DXpD1g2

Dec 25, 2017

可以先 df.repartition(20) 看看执行计划
然后你就明白为啥这么慢了

12

wudc

OP

Dec 25, 2017

@liprais 嗯，明白了，去掉 reparation 确实快了不少，谢谢！

13

zhusimaji

Dec 25, 2017 via iPhone

@wudc 一般情况下不要指定分区数，因为这个都会自动计算出合理的分区，分区设置的过少，必然导致每个 job 处理的时间变长

14

wudc

OP

Dec 26, 2017

@zhusimaji 嗯嗯，听你这么说我明白了，我分区是想防止过多结果文件的产生，现在看来有点画蛇添足了。

15

wudc

OP

Dec 26, 2017

@zhusimaji 我这程序在处理大数据量的聚合时偶尔会报 OOM 内存溢出，您对此有什么比较好的解决方法吗？

16

zhusimaji

Dec 26, 2017

@wudc 不知道你是不是在 yarn 上执行，如果内存够的情况下给每个 executer 分配内存大一点

17

zhusimaji

Dec 26, 2017

oom 产生的原因很多，最好根据打印的 log 日志去找相对应的资料

18

wudc

OP

Dec 26, 2017

@zhusimaji 是在 yarn 上，executor-cores、num-executors 和 executor-memory 已经设置成当前集群所允许的最大值了，我再想想吧，还是非常感谢你的指导。

About Help Advertise Blog API FAQ Solana 1564 Online Highest 6679

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 57ms UTC 16:26 PVG 00:26 LAX 09:26 JFK 12:26
Do have faith in what you're doing.

ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86