中小企业 2B 系统上,有什么好的大数据实时查询引擎推荐(OLAP)? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
leiuu
V2EX    程序员

中小企业 2B 系统上,有什么好的大数据实时查询引擎推荐(OLAP)?

  • /li>  
  •   leiuu 2020-02-26 10:16:33 +08:00 5108 次点击
    这是一个创建于 2057 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT。
    数据量级已经到达千万级,mysql 即席查询已经不太能满足。
    现在内部用过 impala,但是不太好用,复杂类型使用限制较多。
    各位大佬,有没有更好的 OLAP 框架组件推荐呢?

    25 条回复    2020-02-27 13:20:13 +08:00
    YouXia
        1
    YouXia  
       2020-02-26 10:25:49 +08:00
    Presto
    misaka19000
        2
    misaka19000  
       2020-02-26 10:26:10 +08:00
    HBase
    zzcworld
        3
    zzcworld  
       2020-02-26 10:39:13 +08:00
    试试 yandex 的 clickhouse 吧
    fuyufjh
        4
    fuyufjh  
       2020-02-26 10:40:24 +08:00   1
    千万级不算大,建议单机数据库省时省心,比如 greenplum
    leiuu
        5
    leiuu  
    OP
       2020-02-26 10:44:02 +08:00
    @YouXia presto 内部也有 感觉速度不够快 用来支持在线的应用不知道怎么样...
    @misaka19000 hbase 的话,需要再加一个服务吧,专门处理前端和 hbase 之间的交互吧...
    leiuu
        6
    leiuu  
    OP
       2020-02-26 10:46:01 +08:00
    @fuyufjh greenplum 有...查询性能千万级应该可以... 现在想替换掉... 因为之前买了优化服务...服务停了就有各种问题 哈哈哈

    @zzcworld 最近正在看这个 不知道有没有分析系统前端直查 clickhouse 的应用
    preyta
        7
    preyta  
       2020-02-26 10:47:17 +08:00
    clickhouse 可以
    misaka19000
        8
    misaka19000  
       2020-02-26 10:55:12 +08:00
    Elasticsearch ?支持 rest 接口
    EmdeBoas
        9
    EmdeBoas  
       2020-02-26 10:57:19 +08:00   2
    1. HBase 是 CF 的 NoSQL,跟 OLAP 没关系
    2. CH 可以,但运维成本高,没法更新,rebalance、扩容、 删数据头疼
    3. Doris 整体而言不错,性能、运维、灵活性皆可,可以低频更新
    但用此类 OLAP 的系统都需要先把数据打平,有一个 ETL 的过程,过于复杂的 SQL ( join 过多),性能都不会太好

    有一个纯内存的 OLAP 引擎:SnappyData,速度很快,可以支持非常复杂的 SQL ;但社区小众,而且不稳定,BUG 多,不过千万级的数据还是随便玩了

    楼主可以都调研一下,个人推荐 Doris
    xinyewdz
        10
    xinyewdz  
       2020-02-26 10:58:15 +08:00
    千万级,es 完全可以搞。
    leiuu
        11
    leiuu  
    OP
       2020-02-26 11:03:01 +08:00
    @misaka19000 ES 内部有一个 20 亿数据的分析服务... 不过不是即席查询... ES 语法比较复杂、和大数据解决方案路径几乎完全不同,维护学习成本比较高。
    leiuu
        12
    leiuu  
    OP
       2020-02-26 11:07:43 +08:00
    @EmdeBoas 感谢 Doris、SnappyData 都没了解过。拓展了我的视野。yeah
    @xinyewdz 理论上可以。
    maodun1997
        13
    maodun1997  
       2020-02-26 11:09:47 +08:00
    基于 Flink 实时数仓,先做数仓。做了数仓可以提高查询效率。
    leiuu
        14
    leiuu  
    OP
       2020-02-26 11:34:06 +08:00   1
    关于百度开源的 Doris 系统,有一篇介绍还不错: https://blog.bcmeng.com/post/meituan-doris.html
    @EmdeBoas 哦 不对 评论区捉到了你 大佬
    min
        15
    min  
       2020-02-26 12:08:20 +08:00
    kyligence
    aimiyooo
        16
    aimiyooo  
       2020-02-26 14:43:13 +08:00
    kylin,druid,es,clickhouse,doris,看情况具体分析吧
    lovedebug
        17
    lovedebug  
       2020-02-26 14:45:40 +08:00
    流式实时数据库还是不少的。
    ELK 集群 + 热数据可以近实时,这样节省成本。
    如果用 SPARK + 分布式实时数据库,那成本可是非常贵的
    leiuu
        18
    leiuu  
    OP
       2020-02-26 15:05:51 +08:00
    @min 撞名 kylin,动物园又新来小伙伴... 我去了解一下

    @aimiyooo 这些组件都相对比较活跃,基本上就是这几个中选

    @lovedebug 基于 java 的实时分析 为啥会天然觉得慢
    spark on yarn 倒是目前有一个集群 成本确实高很多 但是整个数据开发都基于此
    lovedebug
        19
    lovedebug  
       2020-02-26 15:25:58 +08:00
    @leiuu spark streaming 在 Azure 上几台机器每个月大几万刀,数据量还不是很大。 所以扩大一下还是很惊人的。
    btnokami
        20
    btnokami  
       2020-02-26 15:28:53 +08:00 via iPhone
    aws redshift?
    jakson
        21
    jakson  
       2020-0226 16:33:13 +08:00
    16 楼正解
    SbloodyS
        22
    SbloodyS  
       2020-02-26 17:02:41 +08:00
    spark 或者 flink 实时数仓搞定
    yaxianzhi
        23
    yaxianzhi  
       2020-02-26 17:08:47 +08:00
    千万量级分下表,优化下索引,优化下 sql,应该可以应对吧
    Comdex
        24
    Comdex  
       2020-02-26 23:24:55 +08:00 via iPhone
    试试 tidb?
    leiuu
        25
    leiuu  
    OP
       2020-02-27 13:20:13 +08:00
    @yaxianzhi 指 mysql 吗,理论上应该可以的。只是优化起来不太方便,考虑到可能还会增长。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3675 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 10:31 PVG 18:31 LAX 03:31 JFK 06:31
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86