RT。
数据量级已经到达千万级,mysql 即席查询已经不太能满足。
现在内部用过 impala,但是不太好用,复杂类型使用限制较多。
各位大佬,有没有更好的 OLAP 框架组件推荐呢?
![]() | 1 YouXia 2020-02-26 10:25:49 +08:00 Presto |
![]() | 2 misaka19000 2020-02-26 10:26:10 +08:00 HBase |
3 zzcworld 2020-02-26 10:39:13 +08:00 试试 yandex 的 clickhouse 吧 |
![]() | 4 fuyufjh 2020-02-26 10:40:24 +08:00 ![]() 千万级不算大,建议单机数据库省时省心,比如 greenplum |
5 leiuu OP @YouXia presto 内部也有 感觉速度不够快 用来支持在线的应用不知道怎么样... @misaka19000 hbase 的话,需要再加一个服务吧,专门处理前端和 hbase 之间的交互吧... |
6 leiuu OP |
7 preyta 2020-02-26 10:47:17 +08:00 clickhouse 可以 |
![]() | 8 misaka19000 2020-02-26 10:55:12 +08:00 Elasticsearch ?支持 rest 接口 |
![]() | 9 EmdeBoas 2020-02-26 10:57:19 +08:00 ![]() 1. HBase 是 CF 的 NoSQL,跟 OLAP 没关系 2. CH 可以,但运维成本高,没法更新,rebalance、扩容、 删数据头疼 3. Doris 整体而言不错,性能、运维、灵活性皆可,可以低频更新 但用此类 OLAP 的系统都需要先把数据打平,有一个 ETL 的过程,过于复杂的 SQL ( join 过多),性能都不会太好 有一个纯内存的 OLAP 引擎:SnappyData,速度很快,可以支持非常复杂的 SQL ;但社区小众,而且不稳定,BUG 多,不过千万级的数据还是随便玩了 楼主可以都调研一下,个人推荐 Doris |
![]() | 10 xinyewdz 2020-02-26 10:58:15 +08:00 千万级,es 完全可以搞。 |
11 leiuu OP @misaka19000 ES 内部有一个 20 亿数据的分析服务... 不过不是即席查询... ES 语法比较复杂、和大数据解决方案路径几乎完全不同,维护学习成本比较高。 |
12 leiuu OP |
13 maodun1997 2020-02-26 11:09:47 +08:00 基于 Flink 实时数仓,先做数仓。做了数仓可以提高查询效率。 |
14 |
![]() | 15 min 2020-02-26 12:08:20 +08:00 kyligence |
![]() | 16 aimiyooo 2020-02-26 14:43:13 +08:00 kylin,druid,es,clickhouse,doris,看情况具体分析吧 |
![]() | 17 lovedebug 2020-02-26 14:45:40 +08:00 流式实时数据库还是不少的。 ELK 集群 + 热数据可以近实时,这样节省成本。 如果用 SPARK + 分布式实时数据库,那成本可是非常贵的 |
18 leiuu OP |
![]() | 19 lovedebug 2020-02-26 15:25:58 +08:00 @leiuu spark streaming 在 Azure 上几台机器每个月大几万刀,数据量还不是很大。 所以扩大一下还是很惊人的。 |
20 btnokami 2020-02-26 15:28:53 +08:00 via iPhone aws redshift? |
21 jakson 2020-0226 16:33:13 +08:00 16 楼正解 |
![]() | 22 SbloodyS 2020-02-26 17:02:41 +08:00 spark 或者 flink 实时数仓搞定 |
![]() | 23 yaxianzhi 2020-02-26 17:08:47 +08:00 千万量级分下表,优化下索引,优化下 sql,应该可以应对吧 |
![]() | 24 Comdex 2020-02-26 23:24:55 +08:00 via iPhone 试试 tidb? |