
一个勉强支撑 50 万用户访问的教育网站,因为领导的一个通知,这短短的半个月愣是暴增至 200 万,然后我们就是不停的加班加服务器,数据库扩容,部署多节点,慌慌张张搞的头晕。
平台基本组成如下:
目前没有一个全面的监控系统,所以无法得知平台的负载能力,未来还得加多少机器,各位 v 友分享下对高流量网站的对策。
1 jingniao Dec 22, 2017 via Android 一套通用的开源系统监控,搭起来应该不算麻烦吧,先用起来啊,不太清楚你说的没有“全面的监控”指的是什么,如有理解错误,请无视吧 这是我的想法,未经验证 |
2 jieqiuming OP @jingniao 感分享,我说的全面监控是全面了解各服务器的负载情况、资源占用情况等。 |
3 Nioty Dec 22, 2017 via Android Zabbix 这类的工具 |
4 Lax Dec 22, 2017 虽然都叫监控系统,还是有很多不同的类型。 具体来说,满足不同的需求,如; 需要知道资源方面的使用情况,比如机器的内存、CPU、网络带宽; 需要知道服务 /接口的性能状态,那么就要进行一些主动或被动检测; 需要知道业务流程的执行效果,需要有一系列日志的分析工具和规则; 其它还有安全监控、配置监控等。 整套建立起来需要有工程的管理方法,不然容易搞得不全面而最终做无用功,就像木桶不能留短板。运维的价值不是加机器重启机器那么简单 |
5 defunct9 Dec 23, 2017 via iPhone nagios |
6 southwolf Dec 23, 2017 Open Falcon 或者 Prometheus 吧 |
7 imstand Dec 23, 2017 上云吧 |
8 jieqiuming OP @imstand 服务器部署在客户那边 不能上云 |
9 win10shit Dec 23, 2017 200 万在现在来说很小,可能要考虑找人重新开发一套系统了 |
10 yigemeirenyongde Dec 23, 2017 楼主,我看你咋那么眼熟 |