This topic created in 4185 days ago, the information mentioned may be changed or developed.
今天刚到公司, 就有人通知说主页挂了, 进服务器启动了, 查了下日志, 发现
OSError: [Errno 28] No space left on device: '/tmp/tmp3_Jyjd'
服务都是用supervisor在跑的, 遇到这种问题该如何才能做好监控工作呢, 尽量保证服务不挂, 谢谢大家了
7 replies 2014-12-11 12:50:29 +08:00  | | 1 saber000 Dec 11, 2014 简单的话我在我树莓派跑的服务用upstart自动重启+crontab定时监控并告警 |
 | | 2 Livid Dec 11, 2014 via iPhone 外部监控可以用 Pingdom,监控宝,AWS 这些来看服务是否可用。
内部状态的话,可以用 New Relic 监控 CPU,磁盘,内存和网络等。 |
 | | 4 yangxin0 Dec 11, 2014 用erlang/otp吧完善的监督重启机制 |
 | | 5 lincanbin Dec 11, 2014 内部的话可以添加定时任务,定时wget主页,然后如果出错就restart service。 |
 | | 6 BackBox Dec 11, 2014 监控包 New Relic monit 就够了。 |
 | | 7 weegc Dec 11, 2014 运行服务监控的话,比如nginx、php之类的, 自己写的watchdog.sh 监控,报错退出了,自动重启服务 监控服务器cpu,disk,memory状态的话,很多开源的东东可以使用,不过我还没有用上这方面的东东 |