Apache Doris 现在使用的多吗 效果怎么样啊 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
9921
V2EX    程序员

Apache Doris 现在使用的多吗 效果怎么样啊

  •  
  •   9921 2023-09-27 10:54:32 +08:00 4076 次点击
    这是一个创建于 774 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有没有项目用到 doris 的大佬,可以谈一下使用感受吗 以前做数仓的时候准备研究下 doris ,后来换工作,业务方向变了就遗忘了 现在公司已有的业务平台数据用的 hbase ,数据量一天 500 万,存储查询明细没有问题,主要是增加了一些聚合查询的场景,速度太慢了,二级索引啥的效果也不好,想看看 doris 效果行不行

    22 条回复    2023-11-16 11:12:38 +08:00
    ekkoli
        1
    ekkoli  
       2023-09-27 11:07:13 +08:00
    对于聚合数据的话 doris 强烈推荐,效果很好,我们团队 100t 的数据 使用起来很好
    8355
        2
    8355  
       2023-09-27 14:11:01 +08:00
    @ekkoli 我们现在用 clickhouse ,数据规模跟你们差不多,请问之前考虑过 clickhouse 不,有啥绝对优势嘛
    ekkoli
        3
    ekkoli  
       2023-09-27 14:31:24 +08:00
    这个没有,一直用的 doris
    kanepan19
        4
    kanepan19  
       2023-09-27 14:33:01 +08:00
    @8355 打吧的技术文章说,doris 比 clickhouse 查询的并发率高
    9921
        5
    9921  
    OP
       2023-09-27 14:44:04 +08:00
    @8355 以前用 clickhouse 遇到很多问题,最主要的是它的更新操作是后台任务,sql 执行返回执行成功,但是后台任务并不一定执行完成了,对机器配置要求高
    9921
        6
    9921  
    OP
       2023-09-27 14:46:31 +08:00
    @ekkoli 感谢~有个问题请教下,Unique 模型下现在依然不支持部分字段更新吗,大宽表有不同的实时任务写入不同字段
    COKETSANG
        7
    COKETSANG  
       2023-09-27 14:50:40 +08:00
    我们是 php 技术栈,也上的 clickhouse ,属于一个游戏公司内部后台数据分析项目。
    每日写入超千万明细写入。聚合后查询响应都在秒级内。
    单天 500 万的数据量我推荐你用 clickhouse 。
    这个量级下 clickhouse join 慢的劣势不是特别明显,但是聚合的优势很舒服应该。
    doris 我觉得整个生态好奇怪,分了 selectdb 、starrocks 好几家。
    然后如果你是 java 技术栈好像 doris 跟原来 hadoop 那套会更实用,能搭配 spark 、flink 那些一起用。
    COKETSANG
        8
    COKETSANG  
       2023-09-27 14:57:09 +08:00
    @9921 理论上 clickhouse 的机器配置不会比 habse 那些要求高啊,我们是用 clickhouse 两台 16 核 64G 的集群,平替了一个 40 台 1000 核 1TB 的集群。
    不过我们的数据量不大,5TB 左右。而且 clickhouse 的并发性能确实不行,我们 qps 是不过百的。update 也支持不太行。我们用户画像虽然是 clickhouse 做的,但是是 clickhouse 计算结果,同步到到一个 mysql 去支持业务并发查询的。
    9921
        9
    9921  
    OP
       2023-09-27 15:42:29 +08:00
    @COKETSANG 我们以前用的单节点的,具体配置忘了,性能跟不上,更新一行数据后,任务一直在排队;还有一个功能好像是叫物化视图还是啥的,功能不错,但是机器性能不行就完全用不了
    9921
        10
    9921  
    OP
       2023-09-27 15:46:25 +08:00
    @COKETSANG clickhouse 查询速度很快,以前是因为覆盖写入的数据和查询的数据长时间不一致,就弃用了
    COKETSANG
        11
    COKETSANG  
       2023-09-27 16:00:29 +08:00
    @9921 ck 的话你就默认它没有 update 。需要 insert 代替 update ,搭配 replacing 引擎 final 来读数据就是,跟其他数据库有点点不同。
    物化视图也是类似,一般需要搭配 aggregating 引擎用。碰上需要去重的场景就不太适用了。
    那挺可惜的,目前我们有两套系统 ck 在用。有一套是单机 32 核 64G ,目前来看不过亿的数据都是随便查的,我安利你看看伴鱼和七猫的团队文档,我觉得学到挺多的。
    llzzll1234
        12
    llzzll1234  
       2023-09-27 16:26:03 +08:00
    挺不错的,前司去年把报表从 clickhouse 转向了 doris ,很重要的一个原因是 ck 的迷之 sql 写法,对于数据的话目前只有几百 G 所以看不出多少区别
    9921
        13
    9921  
    OP
       2023-09-27 17:11:54 +08:00
    @COKETSANG 当初也是听说 ck 厉害才换的,需要整个多项业务各种表到一个 100 多列大宽表,在测试去重的时候碰壁了很久,就没有再继续研究了
    COKETSANG
        14
    COKETSANG  
       2023-09-27 17:47:01 +08:00
    @9921 看了下我们现在也有 135 列高频查询的宽表,ck 本身列存对列数不敏感,我们也有数据不多 2000 多列的表,查询单列不多的情况下确实也很快。
    ck 简单列聚合确实很牛逼,但是 join 确实不太行。当时选型也是考虑可以减少 join 进入数量解决。我们大概 21 年开始用了,早期版本不支持 2 个以上 join ,多表只能用嵌套 join 也确实恶心。不过我们是自己参考 mongodb 写的小型 orm 解决的也问题不大。
    目前整体看暂时没有性能瓶颈所以还是推荐你可以试试。
    COKETSANG
        15
    COKETSANG  
       2023-09-27 17:49:04 +08:00
    @9921 而且 ck 压缩比挺高的,就是要管下类型不能像 hive 那样 string 一把梭。但毕竟我们是服务器费用敏感的小公司
    rockxsj
        16
    rockxsj  
       2023-09-27 18:17:29 +08:00
    对比后用的 starrocks ,开源程度更高,而且社区配合度很高
    leonhao
        17
    leonhao  
       2023-09-27 18:23:10 +08:00
    @llzzll1234 sql 语法这点不知道为啥没人提,相当丑陋,放着标准 sql 不用非要另辟蹊径,不知道设计的时候咋想的
    hangszhang
        18
    hangszhang  
       2023-09-28 09:50:52 +08:00
    美团在大规模用这个
    ser3w
        19
    ser3w  
       2023-09-28 16:13:25 +08:00
    现在在用 starrocks ,社区问题跟进非常积极
    ekkoli
        20
    ekkoli  
       2023-09-30 10:49:36 +08:00
    @9921 据我所知是不支持的,这种情况下一般肯定是拆表
    9921
        21
    9921  
    OP
       2023-10-10 10:01:23 +08:00
    @ekkoli 装了单机版测试了下,unique 模型不支持部分更新,聚合模型对 array/json 等类型有限制,感觉使用起来需要注意的点还是蛮多的
    sch1111878
        22
    sch1111878  
       2023-11-16 11:12:38 +08:00
    @ser3w 真的吗
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2818 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 14:00 PVG 22:00 LAX 06:00 JFK 09:00
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86