
https://aws.amazon.com/message/41926/
At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.
1 holyghost 2017-03-03 10:39:58 +08:00 不知道这哥们要看多少个小时的无聊小视频 |
2 XiaoFaye 2017-03-03 10:52:34 +08:00 很难想象这种批处理命令不需要 Review 。。。 |
3 acoder2013 2017-03-03 10:56:42 +08:00 Amazon 的工程师也是 just so so 啦, 23333333 |
4 just4test 2017-03-03 11:20:59 +08:00 所以删除服务器这种事没有机器人管么? ''' 操作被拒绝。该操作将影响以下子系统: 索引子系统: 30%容量被移除,余下容量不足以支撑线上压力 放置子系统: 20%容量被移除,余下容量不足以支撑 N+1 要强制执行此命令,使用 --fuckyou 参数重试。 ''' |
6 stevele 2017-03-03 12:01:40 +08:00 那也得用啊 |
8 21grams 2017-03-03 12:12:53 +08:00 命令输错了? 难道不应该做成脚本吗? |
9 vingz 2017-03-03 12:14:21 +08:00 并不能所有的维护过程都变成自动化啊 |
11 eyp82 2017-03-03 12:28:46 +08:00 应该是用了 ansible 之类的东西 |
12 bingwenshi 2017-03-03 12:31:44 +08:00 @21grams 用了脚本,但是参数写错了 |
13 okampfer 2017-03-03 12:31:51 +08:00 尤记得上次 gitlab 的 rm -rf / |
14 matrix67 2017-03-03 12:57:07 +08:00 playbook 的话肯定是 ansible 吧。 salt 不叫这个名字。 |
15 vindurriel 2017-03-03 14:37:28 +08:00 >> Removing a significant portion of the capacity caused each of these systems to require a full restart 应该有办法改进吧 |
18 taowen 2017-03-03 23:15:59 +08:00 说明运维自动化的抽象层次还是太低了,这么大的厂,居然还能用 ansible 搞这么底层的事情。还以为 AWS 的运维已经脱离了 bash 的低级趣味呢 |
19 donghui 2017-03-04 08:09:35 +08:00 via iPad 一不小心就删错 |
20 xiaq 2017-03-04 11:37:11 +08:00 via iPad 这里的 Playbook 指的应该是事故处理的手册 |