应届生去百度做 ETL 数仓如何? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jirryzhang
V2EX    职场话题

应届生去百度做 ETL 数仓如何?

  •  
  •   jirryzhang 2019-01-04 18:28:46 +08:00 3726 次点击
    这是一个创建于 2522 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT,据说是传说中的大数据开发,洗日志

    10 条回复    2023-05-09 15:03:37 +08:00
    sergio10
        1
    sergio10  
       2019-01-04 18:52:29 +08:00 via iPhone
    第一份工作就能去百度正编太好了 不要犹豫赶紧去
    Wisho
        2
    Wisho  
       2019-01-04 20:53:55 +08:00
    还不错,百度的数据量刚刚的。同是洗日志,难题和问题会多很多。
    别人日均洗 100GB,在百度你的业务搞不好要日洗 10TB,应该能学到不少。
    jirryzhang
        3
    jirryzhang  
    OP
       2019-01-05 17:18:23 +08:00
    @Wisho 你确定不是逗我的吗?洗日志不管是 TB 还是 PB 有啥区别,反正写 ETL 程序处理字符串而已,感觉是个人都能做啊
    Wisho
        4
    Wisho  
       2019-01-05 22:32:03 +08:00
    @jirryzhang 我确定没有逗你,我在 BAT 其中一家做过类似的东西。
    你试试从毫无时效要求的洗数据出报表,再渐渐到有时效性要求的需求( 2h 内跑完 xx 天的数据,出 xx 项统计量),再到交互式查询( xx 秒内跑完,研究预热机制,研究计算引擎)。
    你真以为就是表面看起来那么简单吗?
    Wisho
        5
    Wisho  
       2019-01-05 22:39:15 +08:00   1
    @jirryzhang 还有,你说的对,程序逻辑大概就是处理字符串。但是你上游要对接 mq 或者一些日志采集中间件,下游要对接存储组件吧( low b 一点的就说 hbase,es 这种好了)?假设你在小公司洗 100+GB 数据,随便洗随便存吧,开源组件用起来,横向拓展 10 个、20 个节点好像能搞定耶。假如到了 100+TB 级,搞不好开源组件靠不住,或者需要深度定制。再深入一步,到了 100+PB 级,难道不需要任何魔改,直接装社区版就能用?

    单纯说“洗日志”一个需求的话,确实没啥区别,代码逻辑都是那样处理字符串,substring 一下,组合一下,拼成一个个的 k-v 弄出去。但是这个东西背后有多少问题你可能需要好好地深思一下吧?
    aldorado
        6
    aldorado  
       2019-01-06 10:33:38 +08:00
    @Wisho 大佬有没有博客或者相关博客推荐的
    jirryzhang
        7
    jirryzhang  
    OP
       2019-01-06 18:52:54 +08:00
    @Wisho 唉,可是时效性要求不高,大都是离线场景,锦上贴花的东西,感觉也不好出绩效
    jirryzhang
        8
    jirryzhang  
    OP
       2019-01-06 19:09:01 +08:00
    @Wisho 而且处理框架这层有 inf 做,我这层更像是填充业务代码的...
    zcguo
        9
    zcguo  
       2019-01-07 09:28:27 +08:00 via Android
    能不能问一下这个岗位面试考啥了,我也想去面这个岗位
    liamli
        10
    liamli  
       2023-05-09 15:03:37 +08:00
    ETL 还是个岗位呀, ETL 这个工作在大数据里处于什么级别呢? 是否可以理解为就是数据清洗的工作?
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5706 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 33ms UTC 03:07 PVG 11:07 LAX 19:07 JFK 22:07
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86