
1 yincrow Jun 4, 2020 表名:hive_zhong_ri_pao_2_yi,不客气 |
3 smallpython Jun 4, 2020 越简单越好 |
4 monkeyWie Jun 4, 2020 用 kudu |
8 whx123 Jun 4, 2020 需求不够详细啊 |
9 Leeci OP @whx123 银行项目,单表日流水 2 亿左右,整个省份的数据。所以现在在表的设计上要考虑性能问题。目前我能想到的就是分区或者分桶+增量的方式,想看看坛子大佬有没有更好的方法。 |
10 imzhazha Jun 4, 2020 via Android 你就说了日数据量 2 亿,其他啥都没说,别人没法给建议。你啥业务,要出什么数据,出了什么问题,你得把你要干嘛讲清楚。优化是要看业务场景的。 |
12 glfpes Jun 4, 2020 1 天 2 亿行对 hive 来说毛毛雨,按天分区就好 其实业务需求才是你该考虑的,比如要不要根据城市也分区之类的。 |
13 Leeci OP @glfpes 因为我一直从事的都是银行,银行虽然会用到 hive 和 hadoop 那一套,但实际上也就是批处理好一点。城区分区这种我也有想的,就在想对于 hive 有没有什么更好一点的优化方案 |
14 aladdindingding Jun 5, 2020 一天才两亿 你们数据经常改动吗 不改的的话用 clickhouse 我们还是单机一天 5 亿妥妥的 |
15 Leeci OP @aladdindingding 要改动的,而且环境是固定的,不能向科技部提出增加一个 clickhouse 什么的 - -! |