
1 falsemask 9 天前 调对方接口,一次性拿了几百万条数据,把对方内存打爆了。不过我觉得责任不在我,对方没有评估数据量。 |
2 chen11 9 天前 现网操作数据库,我把表的数据给删了 |
3 tf2 9 天前 发帖没正文算不算 重大线上事故 |
4 tina2998 9 天前 via iPhone 一般都在数据库上 |
5 ycao24813 9 天前 发通知消息,判断没做好,重复循环发了十多条给用户 |
6 rocmax 9 天前 via Android 前前司离职最后一天,一个销售来说要改单子的负责人,需要操作生产环境数据库(我知道不对,小公司这是常规操作)。我的 sql 里少写了个 where 条件差点把上万个单子的负责人都改成同一个人。sql 跑了几秒钟没结束,果断 ctrl+c 救回来了。虽然不是啥大事故,但是如果离职之前出事就非常尴尬。 |
7 ChovyChu 9 天前 挖矿发币,由于 xrp 协议上有小数和没小数的单位不一样,导致发多了,好像是 10000 倍 |
8 junkk 9 天前 幂等颗粒度不够细,本来也没啥事的,碰上了几个巧合撞在一起。导致奖励重复发放,一晚上发了几百万出去 还好之前这部分其他同事也动过,他又正巧被裁了,就把锅给他背了 |
9 Flowing 9 天前 身上最大的事故就是甲状腺结节 |
10 zgsi 9 天前 项目上线当天收款金额少了 50,然后中午没吃饭写了补缴功能,2 天内补齐了 |
11 evan1 PRO 项目上线后做生产环境验证,验证后忘记删数据了,后面运行了一小段时间才发现,然后让我删数据。 删数据的时候忘记加 where 条件了,把全部数据都删除了。 当时发现这个问题的一瞬间真的感觉后背到后脑勺凉了一下。后面我花了一个晚上把所有数据恢复了。 |
12 yiiouo 9 天前 前同事,同步用户信息的时候,将公司 500 多个人搞成离职,包含了多位领导。 |
13 300 9 天前 公司代码混乱,本地测试必须注释一大堆代码 好几次没注意提交了一些测试代码,导致服务器有挂一小时的,有挂一夜的,有挂三天的。。 不过我觉得责任不在我,所有人都出过这个问题,老板自己不上测试服,也不给数据库之类的接口,导致本地只能删代码来启动 另外挂三天也是小事,过年设备故障挂了一星期+ 他自己也不知道。用户不知道跑多少了 |
14 GlobalNPC 9 天前 线上排查问题,把 redis 的公共前缀给改了,DB 直接被打爆,业务中断了两小时四十五分钟。 |
15 XuHuan1025 9 天前 |
16 668866 9 天前 rm -rf * |
18 lyxxxh2 9 天前 刚毕业的时候做的多店铺活动,很简单,单纯付款记录。 我分库了,然后技术又差。 给客户设置 cookie,代表那个店铺。 微信支付,没有 cookie,找了好久的 bug 。 最后... 傻傻的手写原生 sql 修复。 还有其他的... 三头两天的出 bug,项目被我搞废了,客户不愿意用了。 |
19 vegeta2ex 9 天前 楼上有些看到都觉得恐怖 |
20 swananan 9 天前 我好多年前的一个内存写飞(这是我现在喜欢 rust 的原因),当时后果蛮严重,上了微博热搜 |
21 kevan 9 天前 rm /* |
22 hitrip 9 天前 企业大数据应用,预聚合把一个 org 的数据算到别的 org 去了。 |
23 pigspy 9 天前 via Android - rabbitmq 要删除队列,给运维的操作单里面写错了队列,所有设备上线的消息都漏掉了,还好是周末,影响不大 - kafka 的消息序列化器 |
25 wu67 9 天前 通知推送没有测试环境, 也没有文档和提醒, 然后给全网正式用户推送 test test test... |
26 villivateur 9 天前 昨天帮老婆解压一个 7z 压缩包,我直接在命令行解压的,狗日的 7z 命令行工具,为什么 7z d 是删除压缩包,还没有二次确认!把老婆 80 个 G 的备份给删了。 明明 gzip -d 是解压的啊,我脑子坏了…… |
28 coldmonkeybit 9 天前 对接一个硬件项目,代码问题导致设备在客户测试现场坏掉了 |
29 murmur 9 天前 楼主为什么不先分享,这是钓鱼整理好自己当自媒体发独食么 |
30 iOCZS 9 天前 因为少传了一个参数,导致老板找投资人演示的时候,功能异常,被投资人说“你的想法不错,可是叫我怎么信任你们的技术”(老板口头转述)。 |
31 loryyang 9 天前 我好像只有实习的时候,把 db 的数据全部回滚了一次。我觉得我是个杀伐果断的人,看到不顺眼的都直接删,很幸运一直没出过啥大事 我印象最深刻的还是我之前一同事,把 hdfs 的数据直接从我们项目的根目录 delete ,删了 2 个 p 的数据。当时还很早,hdfs 能力不完善,内部搞了个垃圾回收,2 个 P 直接塞爆了垃圾箱,就被自动清理了。晚上直接拉起了几十号人进行数据恢复 |
32 youknowsomething 9 天前 |
33 eijuziew 9 天前 忘记取消注释测试代码,大奖被多抽出去十几个,损失几万块 |
35 pyyalt 9 天前 添加服务器上访问人员时候,禁用了 root 用户。导致所有人都登录不上了。后来服务器直接还原了。。。。 |
36 frankilla 9 天前 评论有些说是数据库要么删了要么就是多条目错误变更,想问你们的是操作之前不备份的吗?数据库备份是麻烦还是时间太长?如果操作前备份一下是不是应该没什么担心的?(外行问) |
37 lg487 9 天前 前前司,一个给客户分账功能,我这边是调支付模块的分账接口,然后接口一直给我返回分账失败,但是实际他那边是分账成功了的,我这边又做了重试机制,然后一笔账分了 15 次,后面把公司那个账户的钱都分完了,不过我觉得责任不在我,明明分账成功,他那边给我回复失败,导致我这边一直以为分账失败走重新分账逻辑。 |
38 javalaw2010 9 天前 定时任务发积分,运维没跟我讲每个机器上都在跑定时任务,导致发了两倍的积分 |
39 TheGreatSage 9 天前 涉密电脑接了非密的外设,这个算嘛 |
40 wxm 9 天前 不是我 旁边组重复出款 1300 万最后只追回 700w |
41 helloworldgo 9 天前 drop 掉了系统的用户表,1 分钟之后发现了,搞回来了 |
42 JiZhiDeboy 9 天前 @wxm 只追回 700w 为啥? |
43 zhangyoucaiyo 9 天前 商场收银系统允许部分商户收现金入账,有个憨憨店员把顾客手机号输成金额了,没做金额校验限制,当天全店营收十几个亿。晚上十一点还自动化当日报表推送给了 boss 。 |
44 skyflower 9 天前 之前在安全公司上班,本来发拦截特定流满软件的规则,结果发成了拦截*.exe 的程序,还是直接发的全网,发完我就去吃饭去了。 还好后台有防误报程序,很快这个规则就被防误报拦截,强制转人工二次审核。 吃完饭回来,我默默修改了规则,然后重新发了出去(至今无人发现) |
45 duanxianze 9 天前 某次都下班到家了突然找我改需求,没办法在家搞了,但是忘记上传 git 了,第二天发版发的还是旧版本 |
46 TAFMT 9 天前 via Android if else 搞错了,导致奖品没有库存校验了 超发几千上万单 |
47 TimG 9 天前 via Android 在生产库批量补数据,写了个 py 脚本,写的时候习惯性以为是本地库优化速度 commit 写循环外面了,一下更新了半张表把业务库跑死锁了。运维紧急重启,结果赶上系统盘本来就快满了,直接被这次日志填满,机器起不来了。最后重装了系统盘。数据没丢,但是业务停了 3 小时。 |
48 fan123199 9 天前 发了一个 app ,只要是更新安装的 100% crash 。 |
49 xiebaota 9 天前 21 年,小程序,依赖微信云开发的服务,因为 1.他们套餐变更没通知; 2. 加上某天活动冲量,瞬时流量打爆。 3.接入方案失败重试滚雪球导致雪崩。 结果:午高峰崩了 1 小时,损失 1kw ,直接 P0 。庆幸三方有锅,不然就祭天了。 |
50 karmaisbitch 9 天前 给省局 xx 科的甲方 发了 1600 条短信 |
51 edisonwong 9 天前 在前司,用 python 调 shell 重启 xx-* 机器,一个 list[str] 传成 str ,然后就把测试环境所有机器都同时重启了,还好不是线上 |
52 duhbbx1119 9 天前 @Smileh 没毛病啊,自己的接口自己负责,只要能调通就要做判断;玩一个给个 getById 只传 id 字段,结果返回 100w 条数据,你说这算谁的? ![]() |
53 duhbbx1119 9 天前 我把技术支持配了两天的库给删了 |
54 duhbbx1119 9 天前 @zhangyoucaiyo boss 高兴坏了吧 |
55 lpe234 9 天前 推广短信,本地多线程发送,忘记加" [] " |
57 Ansen 9 天前 手滑把线上游戏全关了。。 |
58 loopinfor 9 天前 不算线上事故,但是 Excel 公式计算时漏检查某两列的一致性,导致重大活动对外发布的数据跟真实情况不一致。后来受影响的用户发现之后紧急撤回,修正后重新发布。 |
59 qwerthhusn 9 天前 我是做工业上位机控制的,写出个 BUG ,直接把生产机器给撞坏了,宕机好几个小时 客户是按分钟罚钱的。具体罚多少,商务讨价还价谈下多少就不知道了 |
61 micolore 9 天前 8 年前吧,有个打款逻辑的问题,多发了不少钱给阿三。 |
63 simo 9 天前 08 年左右,把一天内所有商家传的库存全给删了,不记得具体量了,应该是不到 100 家,不到 100w 条的库存数据。 然后挨个打电话,要库存,恢复数据,不知道弄了多少天,反正差点累死。 |
64 xubeiyou 9 天前 刚出社会删过生产环境数据库 |
65 dode 9 天前 改进一个老函数,nodejs 0.xx ,处理 IP 地址时有 bug ,特定 IP 结果不正确。 |
66 macscsbf 9 天前 还真没有 |
67 DayDayUpDreamer 9 天前 实习的时候,直接操作线上数据库,select * from table; 直接把数据库干死机了,直接 P0. |
68 SoulSleep 8 天前 重复结算,最后损失 2 个亿 |
70 zhoudaiyu PRO crontab -e 想改定时任务,敲成了-r ,crontab 真是逆天的设计,键盘 ER 连着的 |
72 catazshadow 8 天前 via Android 都应该反思以上事故如果没有 996 是不是能避免 |
73 fromMars1130 OP @SoulSleep 厉害了,想听最终结果 |
74 mrochcnnnnn 8 天前 支付,一个亿退款卡了三天 |
75 RedisMasterNode 8 天前 哎 头大 还是经典的 DELETE 忘记加 WHERE 还是 LIMIT 不记得是哪个了 orz |
76 nickxudotme 8 天前 @evan1 我实习时 mentor 让我写 SQL 先写 where 条件 ![]() |
77 kkwa56188 8 天前 每一次这种生产上的篓子, 背后都有各种论坛里的大聪明洋洋得意的说, 世界果然是个大草台班子 |
79 zuokanyunqishi 8 天前 楼上不少都刑啊... |
81 xclimbing 8 天前 三方公司把我司 vsphere 的光存储格式化了,全部虚机都没了,幸亏我每天有备份,不过恢复那些虚机也花了一周的时间。 |
82 ingram22mb30 8 天前 via Android 事故?不存在的,锅都是别人的。 |
83 JuSH 8 天前 当年在某地上房屋登记系统,上线第一天研发反馈有个 BUG 需要还原测试数据库验证一下。 结果驻场工程师把正式环境数据还原了,还无法恢复。 还好上线第一天业务不多,一群对着实体材料手工操作业务到凌晨 3 点才把业务数据恢复。 |
84 rogi 8 天前 |
85 azal 8 天前 项目下线,给会员退年费。按使用天数退,搞反了,用得多的退的多,用的少的退的少。发现后,又按正确比例又退了一次 幸好是小项目,瞬间损失三四千吧。心都要跳出来了,老板也好,平稳的说没事再退一次吧,也没扣我工资 |
86 seedhk 8 天前 1. 第一家实习公司小公司,帮领导发群体邮件,邮件内容是详见附件,结果妹加附件就发出去了,100 多人; 2. 第二家公司,算是半实习,有线上库权限,跑数据的时候没注意是连的生产还是测试库,垃圾数据跑了 100 多 w 条; 3.第三家公司,算正经开发了,跑接口又没注意是生产,点完发送的时候去测试环境看日志,一看没日志回去看接口地址,一看是线上地址,瞬间后背发凉,用了一个晚上把数据跑回去了; 4.还是第三家公司,半夜发新版本(传统艺能),都发完准备回去了,我还有最后一项线上数据要处理,写了个 sql 准备跑,担心自己脑袋迷糊还让同事帮忙看一下 sql 写的对不对,结果他脑子也是迷糊的。一条 sql 干废了 500 多 w 数据,5 6 个人想尽各种办法花了一整晚事件都恢复不了,最后打电话个 dba 做数据回退; 5.想不起来了,应该还有。。。。。。 |
88 b309f3337 8 天前 上家公司是做 HR 系统的,我们这个系统的定时任务可以直接在系统写 Python 代码配置,可以直接操作数据库,有一次给某个客户的系统更新的时候,因为上线的时候要执行一个定时任务批量更新员工数据,具体忘了 SQL 怎么写的了,反正把员工数据都更新错了,当时心里都凉半截了,大半夜客户联系他们的运维把备份的数据库恢复了,客户脾气还挺好的,也没骂我 |
89 leehomyhh 8 天前 又一次物理机断电了,大量虚机宕机了,恢复的时候漏了一台物理机的虚机,业务高峰期应用不可用了 |
90 zhaojiaiqing 8 天前 在客户现场工作站手贱用扫毒工具扫了下压缩包,给网安爆了几千条中毒告警( |
91 SvenWong 8 天前 看到你们的,我觉得我的很小儿科。 逻辑漏洞,导致下发给仓库很多重复订单,吊牌金额也就 2 万多吧,好在后面大部分都追回来了 |
92 NextGen 8 天前 没人提线上一分钱? |
93 saaak 8 天前 |
94 hhhhkkk 8 天前 刚毕业时 .env 没搞 ignore ,为了在家学习项目, 特意推了 github , 最巧的是 private 库满了,我新建了个 public 库,第二天还被集团扫到了,通报批评,涉及密钥的项目来来回回弄了一个星期才还完。 至今都没懂,集团是怎么扫到的。 |
95 InDom 8 天前 运营, 有个客户的名字录入错了, 需要后台改一下. 改完看一眼, 嘿, 好多重名的用户诶. 唉? 怎么所有用户都叫这个名字. |
96 nogizaka46 8 天前 |
97 listen2wind 8 天前 @falsemask 我想起来了前几年,去电厂一个项目,调用对方的数据,然后说我们连接后没有关闭连接,把对方服务调崩掉了。 ![]() |
98 HUMILITY 8 天前 我前端。只记得实习时,toc 有个页面描述没做条件判断然后上线,导致只有 key 但是没 value ,被客诉时,mentor 叹的那一口气(没有说 mentor 不好的意思,只是觉得自己写代码好菜) |
99 runking 8 天前 之前做了个双 Boss 战的活动,普通玩家比超 R 输出还高,名次还高。 原因是 Boss 忘记配置防魅惑了,普通玩家有一部分在用带魅惑技能的宝宝,然后两个 boss 被魅惑了对打,伤害算成玩家的。 不出这个事故,整个团队估计忘记还有魅惑这个机制了。 |
100 hewiefsociety 8 天前 AWS Lambda 没注意消耗 花了 20w 刀 |