实时日志统计的问题 - V2EX
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
xcaptain

实时日志统计的问题

  •  
  •   xcaptain Jul 19, 2018 5275 views
    This topic created in 2853 days ago, the information mentioned may be changed or developed.

    要实现一个多维度的统计功能,比如说按时间,城市,性别,设备等维度进行统计。我调研了一下 kafka streams,能从 topic 中创建 stream,然后在 stream 上可以写 ksql 查询,但是 ksql 查询的结果还是 stream,没法直接放到 mysql 中进行统计报表展示,如果不用 stream 的话就变成了写 consumer 然后把统计结果写入到 mysql,kafka 的优势就体现不出来了,求教一下大家都是怎么做统计的

    10 replies    2018-07-20 16:53:47 +08:00
    owenliang
        1
    owenliang  
       Jul 19, 2018 via Android
    storm 了解一下,spark streaming 了解一下
    woshishabi
        2
    woshishabi  
       Ju 20, 2018 via Android
    @owenliang 跟这些没关系。LZ 需要换一个存储后端,延迟低点的,KV Storage 即可,然后自行组织索引结构,流式吞吐量上去了 mysql 不是非常合适。本人做流式大概六年多了,LZ 这种简单 stateless 场景即使自己写 processor 不依赖框架也行。如果真要上,不建议 storm,其余随你折腾。
    thundernet8
        3
    thundernet8  
       Jul 20, 2018 via Android
    用 Druid 试试
    xcaptain
        4
    xcaptain  
    OP
       Jul 20, 2018 via iPhone
    @woshishabi 能更详细的说下后端存储的设计吗?我目前用 confluence platform 流计算这块基本是搞定了,后端如何存确实是没想清楚,用 kv 存储的话如何做范围查询呢
    xcaptain
        5
    xcaptain  
    OP
       Jul 20, 2018 via iPhone
    @thundernet8 以前没用过这个,查了一下好像比 kafka stream 更符合我的需求,感谢
    woshishabi
        6
    woshishabi  
       Jul 20, 2018 via Android
    @xcaptain 需要支持 range query 的 kv store,比如 rocksdb 这样的 做好 sharding 即可,吞吐量 /延迟不会有问题,但是运维的话对于小团队可能比较麻烦点,需要开源组件或者自己维护 replica. 另外有个次一点的选择,hbase,在线服务有时是可以用的,吞吐量足够延迟会大点,看你是不是经常做查询以及对查询的延迟要求,然后对每一个维度都建一个索引即可。
    woshishabi
        7
    woshishabi  
       Jul 20, 2018 via Android
    顺便说一句这需求用 spark streaming or flink or 其他什么基本没区别,为啥,就是简单的无状态统计服务(流式里最最基础的)。一两个 processor 就能搞定的事情(一个 parser 做数据清洗+聚合再来一个负责 import 的足够了),这么简单的拓扑,拿框架说事的基本都在扯淡。瓶颈自然是 storage client 这里。
    cf0834
        8
    cf0834  
       Jul 20, 2018
    storm、spark streaming、flink 都可以玩转你的需求
    aboutyang
        9
    aboutyang  
       Jul 20, 2018
    kafka streams + kafka connect
    xcaptain
        10
    xcaptain  
    OP
       Jul 20, 2018
    今天又调研了一下 kafka + clickhouse,目前来看效果还不错,clickhouse 的语法类似 mysql,学习成本比较低,开源的数据可视化工具 redash 也支持 clickhouse,可能就用这个方案了
    About     Help     Advertise     Blog     API     FAQ     Solana     3278 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 40ms UTC 14:08 PVG 22:08 LAX 07:08 JFK 10:08
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86