不撕逼,只描述一个自己遇到的事情而已。 大概描述一下吧~
搞一个 Cassandra 集群,第一次玩,数据类型用的 Long/BigInt. 因为还在项目验证阶段,所以机器配置参差不齐。 有两台机器最搓, 只有 2G 的内存,泪崩。
聊胜于无,也把环境搭建起来了。
然后塞了几十 GB 的数据进去之后,就开始用 spark 去计算了~
不出所料,很快就 Cassandra 奔溃了。。。。
于是乎想起 long 的长度肯定要大于 int ,如果没有记错,应该是 32bit , 4 字节?
其中一张表需要全部 load 到内存之中进行进行计算,根据数量级进行估算之后, 2G 内存应该足够。 改完之后,确实如此, 至少这个地方不再导致 Cassandra 集群奔溃了~
所以个人感觉那个得罪人的帖子,还是有一些道理的~ 如果只是写业务代码,在遇到一些性能瓶颈的时候,了解一些底层的知识感觉还是会比较有帮助~
最后打一个广告:
南京趋势科技 个人消费者部门 招聘 3 个想玩大数据的实习生~ 最好是南京本地的,外地的每个月出勤够一定天数之后是有住宿补贴的~
只要基础好,最好有 java/python 的基础,如果已经玩过 spark/hadoop 就最好不过啦!
联系方式: 135 1511 7373 AT 163dotCom
放假我就不看公司邮箱啦 呵呵
