本科毕设围绕 spark 开展,具体点是改进 spark 的资源调度系统。
由于身边没法部署大规模集群,能看到的问题可能相当有限。
想问问大家目前在生产环境看来 spark 现在主要的瓶颈和可改进的地方都有那些呢?
![]() | 1 Todd_Leo 2015-12-24 10:08:41 +08:00 你可以去官方的 JIRA 上看看 issues |
![]() | 2 wilsoncao 2015-12-24 10:12:22 +08:00 只用过框架但没有认真思考过哪里有瓶颈。。。收藏关注一下大神的回答。。。就观察来看有些操作例如 mapbykey 非常耗时,非常耗时。。。不知道是不是跟资源调度有关。。 |
![]() | 3 Abbey 2015-12-24 10:43:06 +08:00 阿里云买几台服务器吧。。。 |
4 mko0okmko0 2015-12-24 11:09:39 +08:00 你知道 spark 的 最小启动条件吗? 最佳 CP 值虚拟机推荐吗? 离线计算配置? 一秒软即时配置? 太多点可以玩了, 数据随便找个几 G 或是几 T 也可,倒在一起就可以玩了. 不要假设目标, 直接查找所有栏位 /数值的个别出现次数最多,降排序. 依照此排序推算某两个存在的正比关系, |
![]() | 5 dsharpen 2015-12-24 11:48:38 +08:00 主:大家得登火星的瓶在哪? 1 :你可以到 NASA 看看最新的 issues 2 :只到火星大,真思考登哪有瓶,收藏注一下巴的回答。。。就察看,天朝的五毛非常耗,非常耗。。。不知道是不是和被太久了有。。 3 :淘一次性高仿八心八箭着器吧。。。 4 :你知道火星? 第五宇宙速度? 最佳第六人如何坑友的? 霍金性? 一秒掉毛都射? 太多要考了, 趴便找 G(男用)友或是 T(女用),倒在一起就可以玩了。 不要放治, 直接查找所有 /bra 的出次最多,降排序, 依照此排序推算某存在的婚外, (不好意思岔道了,最後似乎得出了和火星的...anyway ) |
![]() | 6 zonghua 2015-12-24 11:52:51 +08:00 via iPhone 学校每个机房有六十台机子,只要五个机房的话。 |
8 mko0okmko0 2015-12-24 13:47:50 +08:00 @dsharpen 翻译很棒.超形象的. 难得被调侃后马上笑出来的哈哈哈. |
![]() | 9 staticor 2016-01-12 19:04:22 +08:00 诚如, 这里不获得有效回答的好地方, 倒是也许能得到一些得到有效回答的渠道. find issues |