spark 技术面试被问到个问题,有点问懵逼了,求指点 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
naga1003
V2EX    Scala

spark 技术面试被问到个问题,有点问懵逼了,求指点

  •  1
     
  •   naga1003 2018-12-07 09:36:27 +08:00 7202 次点击
    这是一个创建于 2507 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问题:什么应用场景下 group by 比 reduce by 更好?

    当时懵逼了,感觉不是默认都尽量使用 reduce by 吗,现在我能想到的情况也只有在 key 值非常少的情况下用 group by 比较好,不知道对不对。

    6 条回复    2020-08-14 14:39:43 +08:00
    paradoxs
        1
    paradoxs  
       2018-12-07 09:52:27 +08:00
    在对大数据进行复杂计算时,reduceByKey 优于 groupByKey。

    另外,如果仅仅是 group 处理,那么以下函数应该优先于 groupByKey:
      ( 1 )、combineByKey 组合数据,但是组合之后的数据类型与输入时值的类型不一样。
      ( 2 )、foldByKey 合并每一个 key 的所有值,在级联函数和“零值”中使用。

    ---
    https://blog.csdn.net/zongzhiyuan/article/details/49965021
    VoidChen
        2
    VoidChen  
       2018-12-07 10:03:45 +08:00
    groupBy 不好的原因是因为在计算前会先移动数据,reduceby 是先各自计算出结果再汇聚起来计算。所以什么情况下用 groupBy 好呢,我想啊,可能在需要移动数据的时候,比如说我有一批数据希望分组存放,直接移到一起输出成一个文件,后续分 rdd 直接一个文件一个 rdd 这么计算就会非常快。我也刚学没多久,不知道说得对不对,只是给出一点想法=。=
    vowers
        3
    vowers  
       2018-12-07 11:22:32 +08:00
    em.....我都是能用 reduce 绝不用 group 的。。。
    naga1003
        4
    naga1003  
    OP
       2018-12-07 23:36:19 +08:00
    费解的就在问的是 group by 的优势啊,我是怎么都感觉没有优势啊,看来还是经验少了。
    naga1003
        5
    naga1003  
    OP
       2018-12-07 23:39:35 +08:00
    但仔细一想,如果 groupbykey 没有任何优点的话,岂不是没有存在必要了?所以应该确实是有应用场景的。
    sakura1
        6
    sakura1  
       2020-08-14 14:39:43 +08:00
    不支持结合律的计算,比如去重?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     876 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 21:28 PVG 05:28 LAX 14:28 JFK 17:28
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86