想了解下各位所在的公司是怎么做数据统计的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
rockyliang

想了解下各位所在的公司是怎么做数据统计的

  •  
  •   rockyliang 2023 年 6 月 1 日 2233 次点击
    这是一个创建于 1058 天前的主题,其中的信息可能已经有所发展或是发生改变。

    无论运营什么互联网产品,公司都需要对产品的一些指标信息进行统计,例如:

    每日新增用户量、每日活跃用户量、用户留存率、用户平均收入等等一大堆指标

    不同指标的计算公式不一样,有些指标的计算过程可能会比较复杂,而且还要提供根据时间(日 /月 /年)、系统(安卓 /iOS/PC )等等多种维度的查询


    我的问题是:

    对于这种普遍的统计分析场景,有没有通用的架构设计方案呢?比如什么 mongodb 、ElasticSearch 、Hapdoop 、Spark 、Kafka 之类的组件需要用上吗

    最后,如果想学习这方面的知识,大家有没有推荐的书籍呢?有的话可以分享下,谢啦:)

    12 条回复    2023-06-02 18:27:29 +08:00
    darksheep9527
        1
    darksheep9527  
       2023 年 6 月 1 日
    这个要专门的 数据科学 team 吧
    ety001
        2
    ety001  
       223 年 6 月 1 日
    influxdb + grafana
    haimianbihdata
        3
    haimianbihdata  
       2023 年 6 月 1 日 via Android
    你要是上了 hadoop 那一套。你得找做数开。数仓的同学
    lingalonely
        4
    lingalonely  
       2023 年 6 月 1 日
    简单,数据量不大,直接数据库+BI 系统就行
    MIUIOS
        5
    MIUIOS  
       2023 年 6 月 1 日
    一天产生的数据不超 W 没必要考虑这么多,SQL 直接撸就好了
    sadfQED2
        6
    sadfQED2  
       2023 年 6 月 1 日 via Android
    hadoop 那一套,hive 离线计算
    SimbaPeng
        7
    SimbaPeng  
       2023 年 6 月 2 日
    prometheus + grafana
    8355
        8
    8355  
       2023 年 6 月 2 日
    找大数据开发做 这是另外一套逻辑, binlog 同步数据给他们
    fantathat
        9
    fantathat  
       2023 年 6 月 2 日 via iPhone
    可以看一下这个 https://zhuanlan.zhihu.com/p/65573407
    便于了解下应用场景以产品的视角,
    同时可以关注下公众号 ixuewenge, 可以把干货内容先收集起来集中,技术的话我不是很懂,做不了推荐
    vincent7245
        10
    vincent7245  
       2023 年 6 月 2 日   2
    首先看你们公司的规模和技术水平,不同的公司有不同的方案,Hadoop 技术栈并不适合小公司。以下我列举从简单到复杂的各种方案供你参考。

    1 excel + 人工分析,适合没有程序员或只有个位数程序员的小公司

    2 第三方平台,比如友盟,适合有专门的的 app 、网站开发人员,但是开发人数也不多的小公司,直接接入他们的 SDK 即可

    3 小公司自建数据分析服务,非大数据专业程序员就可以做的方案,从简单到复杂:
    - python 脚本做定时任务,直接去业务数据库拉数据出报表
    - 搭建一个专门做分析的数据库,比如 elasticsearch 、mogodb ,甚至直接用 mysql 都行,只要数据量不大用哪个技术栈都不是问题。然后业务数据定时导入分析数据库,直接用定时脚本倒就行,没必要太复杂,剩下的就是写 sql 出报表了。
    - 使用 clickhouse 、dorisdb 等专门的数据分析技术栈,到这里就需要有大数据的基础了,花几天去看看教程也能做出来,业务数据用 、日志全都导进去,然后写 sql 出报表

    4 商业版数据分析平台,国内做到头部的比如神策,小公司一年的费用大概十几万吧,如果能承受这个费用的话还是十分推荐的,毕竟他们的数据分析模型做的很全面,完全能满足中小公司的数据分析需求。

    5 如果开发团队人员在 20 人以上,且有专门的大数据开发人员,就可以考虑 hadoop 技术栈了。这就是大数据专业的事情了,不细说了,交给他们去做把。
    dji38838c
        11
    dji38838c  
       2023 年 6 月 2 日
    这个是 BI 部门做的
    samnya
        12
    samnya  
       2023 年 6 月 2 日
    把不敏感的数据同步到到内网的一个 SQL Server ,然后用 Power Bi 。
    负责分析的同事可以搞定大部分的数据筛选和报表。有些比较复杂的比如说订单表需要各种关联查询的,可以直接写一个 SQL ,查出需要的数据,然后他们可以继续在 Power Bi 里面继续做
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3025 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 68ms UTC 03:18 PVG 11:18 LAX 20:18 JFK 23:18
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86