最近正准备转型大数据方向,很好奇大数据码农们的日常工作都是干什么的? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
sunzhenyucn
V2EX    程序员

最近正准备转型大数据方向,很好奇大数据码农们的日常工作都是干什么的?

  •  2
     
      sunzhenyucn
    yai-dev 2018-06-26 10:24:43 +08:00 9038 次点击
    这是一个创建于 2716 天前的主题,其中的信息可能已经有所发展或是发生改变。

    不太了解,对大数据方向挺感兴趣的,
    求各位在大数据领域进行讨生活的各位大佬给解解惑

    37 条回复    2018-06-27 08:56:22 +08:00
    dif
        1
    dif  
       2018-06-26 10:39:59 +08:00   1
    刷 v2ex,看知乎,出去吹牛皮。。
    sunzhenyucn
        2
    sunzhenyucn  
    OP
       2018-06-26 10:40:56 +08:00
    @dif lol,不会吧,这么闲的吗??
    loryyang
        3
    loryyang  
       2018-06-26 10:43:47 +08:00   1
    工程方向就是维护下一些框架,做些升级,然后偏业务的就是开发业务相关逻辑,出个报表,出个数据什么的
    或者给机器学习跑点数据和特征
    sunzhenyucn
        4
    sunzhenyucn  
    OP
       2018-06-26 10:47:12 +08:00
    @loryyang 万分感谢
    tingyunsay
        5
    tingyunsay  
       2018-06-26 10:54:37 +08:00   1
    写他么的 hql(;Д`)
    mkstring
        6
    mkstring  
       2018-06-26 10:59:46 +08:00   2
    写大量的 SQL,偶尔写 MR
    VoidChen
        7
    VoidChen  
       2018-06-26 11:00:22 +08:00
    我只说我做的。。。搞下集群,部署搭建和问题检查什么的,然后跟某重本合作拿来一些业务类型的算法去做实现,优化校准,还有就是偶尔遇到一些问题(内存不够或者计算不够快或者统计数量大),去看开源拆算法搞来用,杂七杂八的。其实跟写 java 差不多啦,可能是因为毕业半年多,学的用的还比较浅(不过用的全,常用的基本都用过了)
    wwek
        8
    wwek  
       2018-06-26 11:08:52 +08:00
    数据清洗 结构化 ETL 写 HQL
    sunzhenyucn
        9
    sunzhenyucn  
    OP
       2018-06-26 11:38:39 +08:00
    @tingyunsay
    @mkstring
    @VoidChen
    @wwek
    谢谢各位大佬
    liyer
        10
    liyer  
       2018-06-26 11:45:03 +08:00
    爬数据,入库,去噪,打标签,分析
    deepreader
        11
    deepreader  
       2018-06-26 12:33:05 +08:00
    数据清理,做 PPT。
    wtf94666
        12
    wtf94666  
       2018-06-26 13:03:20 +08:00 via Android
    我是设计 我感觉我公司的工程师们都在刷蔚蓝航线
    sudoz
        13
    sudoz  
       2018-06-26 13:05:46 +08:00
    总而言之就是没什么意思
    grewer
        14
    grewer  
       2018-06-26 13:48:47 +08:00
    @wtf94666 舰 B 么
    SuperMild
        15
    SuperMild  
       2018-06-26 13:53:34 +08:00
    据说就是洗数据……不管哪个领域,都是站在高位置的人才有差别,底下全是搬砖,体力活。
    zynlp
        16
    zynlp  
       2018-06-26 13:53:45 +08:00 via iPhone
    纳尼?只有我这么忙吗,只能蹲坑的时候刷下 v2
    搞了一个礼拜的 cuda 了,整个人都粗大了
    WXG999
        17
    WXG999  
       2018-06-26 14:00:28 +08:00
    @VoidChen 敢问大佬是本科还是硕士毕业?
    VoidChen
        18
    VoidChen  
       2018-06-26 14:12:20 +08:00
    @WXG999 不是大佬,二本毕业。。让你失望了
    VoidChen
        19
    VoidChen  
       2018-06-26 14:25:17 +08:00
    回复的时候看了下,怎么好像基本都是数据清洗?我主要做的是 storm 流处理,基础的数据清洗就只是在源头那里架一个 bolt 过滤掉就好了(包括一些修正),怎么好像不太一样?朋友里面没有做大数据的,所以不是很清楚情况,借个楼问下。。。万一以后跳槽别人一问不知道就不好了
    WXG999
        20
    WXG999  
       2018-06-26 14:25:33 +08:00
    @VoidChen 好好工作以后都是大佬
    chi1st
        21
    chi1st  
       2018-06-26 14:27:44 +08:00
    写后端。。。
    lastpass
        22
    lastpass  
       2018-06-26 14:29:19 +08:00 via Android
    清洗数据,造轮子。
    ren2881971
        23
    ren2881971  
       2018-06-26 14:29:23 +08:00   1
    坐我旁边的就是搞数据的,各种 ETL 抽取、清洗 、转换 出报表。
    自从有了他,报表错误的锅再也不是我背了。。。
    jasonchen168
        24
    jasonchen168  
       2018-06-26 14:33:30 +08:00
    怎么转的啊?必备基本技能是什么
    applehater
        25
    applehater  
       2018-06-26 15:54:22 +08:00 via iPhone
    比一般业务少了“改”只有“增删查”。
    zhusimaji
        26
    zhusimaji  
       2018-06-26 15:56:53 +08:00
    sql 清洗数据---构造模型---spark 计算
    lius931115
        27
    lius931115  
       2018-06-26 16:05:53 +08:00
    写 spark SQL 和 spark Streaming 的多吗? 各位大佬们!
    hackpro
        28
    hackpro  
       2018-06-26 16:38:18 +08:00
    60%以上的时间在 Data Cleaning 俗称 Data Augument
    bk201
        29
    bk201  
       2018-06-26 17:06:05 +08:00   1
    @applehater 你这理解有问题,和 CURD 无关,大多数都是统计计算,非要关联的话就是查
    superbiger
        30
    superbiger  
       2018-06-26 17:34:43 +08:00
    大量 sql,很多正则,说是计算全是过滤
    arctanx
        31
    arctanx  
       2018-06-26 17:36:33 +08:00
    爬虫->mongodb->elasticsearch->网站后端

    ...我都不知道我算不算大数据码农
    defunct9
        32
    defunct9  
       2018-06-26 17:41:53 +08:00
    吃饭,睡觉,打豆豆
    southsala
        33
    southsala  
       2018-06-26 18:03:46 +08:00
    @wtf94666 你们什么公司啊 我在我们公司推广碧蓝航线推不出去
    WinMain
        34
    WinMain  
       2018-06-26 18:07:15 +08:00
    我们组那位大数据童鞋用 spark 等工具处理 kafka 等地方的数据,出报表,比如 app 相关的点击率,转化率,时常统计等,还有给推荐算法搜索算法童鞋做点数据前期处理的工作。
    renzongxian
        35
    renzongxian  
       2018-06-26 18:24:10 +08:00 via iPhone
    用 HQL、MR 处理数据,ETL,找 bug,改 bug
    fuyufjh
        36
    fuyufjh  
       2018-06-26 21:49:39 +08:00 via Android
    大部分是 ETL 工程师,少部分是写框架的
    z3jjlzt
        37
    z3jjlzt  
       2018-06-27 08:56:22 +08:00
    sql curd 只有 r。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1120 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 28ms UTC 17:44 PVG 01:44 LAX 09:44 JFK 12:44
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86