理性讨论,如果有 5 万台服务器,虚拟机和物理机都行,一个人能管好吗?如果一个人管不好,那怎么管?
有没有大佬有这么多台服务器的管理经验?也希望能够分享一下经验,改进大家的运维效率。
1 salmon5 2021-09-24 14:21:07 +08:00 ![]() 什么?阿里云只有 1 个员工?集团一下子节约几百亿 |
2 salmon5 2021-09-24 14:21:40 +08:00 ![]() 别整天看公众号瞎鸡巴吹牛逼 |
![]() | 3 zhengxiaowai 2021-09-24 14:23:16 +08:00 虚拟机有平台还行,物理机肯定不行 |
![]() | 4 x86 2021-09-24 14:25:08 +08:00 1 个人 5 万台?我要知道怎么管我会告诉你? |
5 salmon5 2021-09-24 14:25:34 +08:00 ![]() 保安大爷 1 个人可以管,开门关门就行了 |
![]() | 6 lostberryzz 2021-09-24 14:25:45 +08:00 ![]() 你的头像,出卖了你 |
![]() | 7 echo1937 2021-09-24 14:26:43 +08:00 你一个人能管 5 万台,我来帮你接 IDC 运维的外包,我们都发财。 每天能管好硬盘失效一项,都有方方面面的事情要考虑。 |
![]() | 8 dante6733 OP 理性讨论,不一个人也行,主要是想看大佬团队管理几万台服务器的经验 |
![]() | 10 dante6733 OP 大家不要纠结一个人了,只是想知道数万台服务器怎么管,大佬分享一下经验! |
11 duqich 2021-09-24 14:29:40 +08:00 5w 台太少了 格局小了 |
12 salmon5 2021-09-24 14:31:12 +08:00 |
13 salmon5 2021-09-24 14:32:12 +08:00 您说的应该是物理机,国内可以找一些例子 |
14 henvm 2021-09-24 14:33:22 +08:00 一个人难 |
![]() | 16 dante6733 OP 蹲大佬,分享数万台服务器管理的经验,不用一个人~ |
![]() | 18 masterclock 2021-09-24 14:36:09 +08:00 ![]() 我帮你贴了?? 睿象云隶属于四川睿象科技有限公司,是一家全球领先的智能运维平台厂商,创始团队始终秉承 “让开发运维工作变得更加高效” 的使命,专注于为企业提供更加智能、全面的跨云监控和事件管理平台。 睿象云团队致力于运用便捷的集成方式,精准的智能算法,及完善的分派响应机制,为企业搭建灵活、统一的运维管理平台,实现云环境下所有 IT 指标和事件信息的汇聚、处理、分派以及智能分析。从而帮助业务运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,建立知识图谱,最终全面提升企业的 IT 运维能力,降低运营成本和风险,创造更加优质的用户体验。 |
![]() | 20 cominghome 2021-09-24 14:37:12 +08:00 应用容器的话应该还行, 物理机当我没说/div> |
21 salmon5 2021-09-24 14:38:39 +08:00 另外:“5 万台服务器”的公司,那 IT 服务器存储带宽支出,真不会买运维平台(零头),早自己团体开发了。 |
![]() | 22 dolphintwo 2021-09-24 14:41:28 +08:00 ![]() 只有资本家才会问这个问题 |
![]() | 24 lasuar 2021-09-24 14:41:46 +08:00 这类大佬没时间来这分享 |
![]() | 25 dante6733 OP @dolphintwo 格局大了 |
26 bing0 2021-09-24 14:44:58 +08:00 一个人管理过 50 台物理机路过,从 1850 到 R740XD,就问你,一个人扛 40*3.5 寸硬盘的盘阵下架你怎么做?? |
27 myd 2021-09-24 14:45:14 +08:00 开玩笑。 5 万台服务器,意味着上面有各种系统。光是部署环境、配置环境账号啥的就够忙活了。除非像云服务器一样,装好系统交给开发,其余撒手不管! 一个运维,出了问题,处理的来? |
![]() | nbsp; 28 Mac 2021-09-24 14:46:55 +08:00 ![]() 不舍得在 V2 上花钱做广告的我是不会相信的 |
29 salmon5 2021-09-24 14:48:42 +08:00 傻狍子领导才会干这事, 明明可以团队带 100 多人,这下好,只有 1 个光杆司令了,任人蹂躏。 这事儿要从管理上来分析,技术上分析没啥意思,自动化运维容器技术资料到处都是 |
31 salmon5 2021-09-24 14:52:03 +08:00 “5 万台服务器”的 leader 级别比总监高了,部门总经理了; 这下好,被你们真么一折腾,就 1 个人了,你说你这项目可能中标吗?睿象云 |
32 xiaofeifei8 2021-09-24 14:59:40 +08:00 @dante6733 想用你们的平台一个人管理 5 万台,你给个方案吧 |
![]() | 33 Remode 2021-09-24 15:02:06 +08:00 5w 物理机?什么神仙。。。 |
![]() | 34 harde 2021-09-24 15:04:10 +08:00 ![]() 本来就是过来打广告的,大家还认真了,散了吧 |
![]() | 35 ScotGu 2021-09-24 15:07:15 +08:00 一个人员 1 台服务都运维不了! 运维可是要 7*24*365 oncall 的,生产队的驴也不敢这么造啊! |
![]() | 36 huangmingyou 2021-09-24 15:07:57 +08:00 一看就是广告 |
![]() | 38 yamedie 2021-09-24 15:11:01 +08:00 广告钓鱼 |
![]() | 39 SingeeKing PRO ![]() 怎么管理?当然是选择睿象云 AIOps [V2EX Plus 的狗头什么时候能回来] |
40 salmon5 2021-09-24 15:14:12 +08:00 确实是广告,如果不是广告,这种言论非蠢即坏,坑人不浅。 |
42 salmon5 2021-09-24 15:16:34 +08:00 老板这么推理:你看别人 1 人 5 万台服务器,你 500 台,工资÷100 吧;所以我说这个言论非蠢既坏,坑人不浅。 |
&nbs; 43 hkz670 2021-09-24 15:17:25 +08:00 ![]() 管理万台服务器,我推荐睿象云。(一条 5 毛) |
![]() | 44 lakehylia 2021-09-24 15:19:47 +08:00 花点钱打广告啊 |
![]() | 45 xsm1890 2021-09-24 15:29:14 +08:00 ![]() 老板对 HR 说:看别人一个人管理 5 万台服务器,运维部门的留一个工资最低的,其他人开了吧。 |
![]() | 47 masterclock 2021-09-24 15:38:14 +08:00 ![]() 目前 google “一个人 运维 服务器 数量”, 第一还是 某乎 的 4 万:行云管家。 大家加油,争取超越 某乎,让 V2EX 5 万:睿象云 到第一。 |
48 905928762 2021-09-24 15:39:02 +08:00 via iPhone 一个运维,99 个临时工 |
![]() | 49 yunyuyuan 2021-09-24 15:42:21 +08:00 一个人可以月赚 5W 吗?怎么赚?:doge: |
![]() | 50 sdushn 2021-09-24 15:43:10 +08:00 别的不说,7*24 值班,一个人扛得住? |
![]() | 51 sadfQED2 2021-09-24 15:43:39 +08:00 via Android 你给我 500 万月薪,别说 5 万台了,10 万台我都有办法。大不了多找点外包呗 |
![]() | 52 eason1874 2021-09-24 15:48:28 +08:00 一个人,五万台,光是日常巡检都不够时间,能不能少做点梦? |
![]() | 53 yin1999 2021-09-24 15:50:21 +08:00 |
![]() | 54 tutustream 2021-09-24 15:56:01 +08:00 合理怀疑这个睿象云拖欠了 LZ 工资 狗头 |
55 littlewing 2021-09-24 16:00:34 +08:00 一个人管,20 个人开发自动化运维系统 |
![]() | 56 Pipecraft 2021-09-24 16:03:10 +08:00 你找一个搞 AI 的大佬,请他开发一个能管理 5 万台服务器智能系统。系统有了,管理 5 万台都不是事儿。 这样你俩的 KPI 都打成了,平时你俩闲聊,旁边他的系统管理你的机器,多么悠哉。 |
57 CodeCodeStudy 2021-09-24 16:06:50 +08:00 一个人管 5 万台,那肯定是自动化管理啊,既然能管 5 万台,50 万、500 万、5000 万、5 亿自然不在话下,到时候所有的运维人员都不用上班了,既然都这么智能了,想必 AI 也能编写代码了吧,程序员也可以不用要了。 |
![]() | 58 JamChiu 2021-09-24 16:08:10 +08:00 我要是知道,我还会上来 V 站摸鱼么? |
59 0ZXYDDu796nVCFxq 2021-09-24 16:18:24 +08:00 5 万台,假如均价 5 万一台,总价 25 亿 楼主你愿意把 25 亿生产资料给一个人管理并让这些生产资料顺畅运作吗? |
60 0ZXYDDu796nVCFxq 2021-09-24 16:21:49 +08:00 ![]() 你们这些人啊,搞事情也不看下实际情况,想装逼但其实显得你很 low,没见过世面 记得在知乎看过一个问题:如何实现千万并发登录 瞎 JB 扯蛋,地球上有千万并发的登录系统吗 |
![]() | 61 ch2 2021-09-24 16:24:27 +08:00 外包给阿里云管 |
62 ltruntu 2021-09-24 16:30:06 +08:00 打广告 都有这么多人在那边杠 服了 |
![]() | 63 Microseft 2021-09-24 16:51:16 +08:00 1 个运维能管理好物理 500 台设备我就觉得已经很了不起了 而且这 500 台基本都是同类型,不然光想想各类硬件巡检故障处理就够头大 500 台也基本意味着,平均每天都会有一个硬件故障(警告或严重级别) |
![]() | 64 fxxkgw 2021-09-24 16:55:02 +08:00 我们这物理机+虚机+容器大概 20W+ 运维部大概 200 人+ 工作内容包括机器管理、运维平台开发、数据库、R2M/日志、服务治理、CICD 等。。 |
![]() | 65 dante6733 OP @fxxkgw 真正的大佬来了,可否大致讲讲,分享一下经验~ |
66 atpking 2021-09-24 16:58:56 +08:00 快请坐到主席台来 |
![]() | 67 halk 2021-09-24 17:09:22 +08:00 看你怎么定义 管理 这两个字 |
68 twl007 2021-09-24 17:13:56 +08:00 看你怎么定义管理了 是一个人管机器的环境部署配置还是连机器上架下架 网络配置 硬件故障排查都要管…… |
![]() | 69 JensenQian 2021-09-24 17:14:10 +08:00 ![]() 你去问下做 steam 的 V 社,他们只有 3 个员工,一个 G 胖负责数钱,一个冰蛙负责更新 dota2,一个散播半条命有 3 的,怎么服务几千万的 steam 用户的 |
![]() | 70 EchoUtopia 2021-09-24 17:18:31 +08:00 ![]() 如果不开机应该很好管 |
![]() | 71 y835L9DyC5XD09kq 2021-09-24 17:41:17 +08:00 ![]() 一个运维可以管理 5 万台服务器,你们是不是都一筹莫展?现在 let me present 睿象智能运维管理平台,不宕机者,运维的救世主,带五奥破死先驱,七云统治者暨全境守护者,运维行业毁灭者,AIOps 之母。 |
![]() | 72 AllenHua 2021-09-24 17:42:24 +08:00 如果不出问题应该很好管,可以嗑瓜子看屏幕监控服务器运行状况。有一两台机器出了问题,怎么管得过来?有时候一个问题需要好几天才能找到解决办法,累积的任务不做了? |
73 tqyq88 2021-09-24 17:48:36 +08:00 ssh root@host rm -fr / 解君愁 |
74 WispZhan 2021-09-24 17:52:28 +08:00 @JensenQian 不是一个 G 胖数钱,一个客服,一个更新 Steam 客户端吗? |
![]() | 75 JensenQian 2021-09-24 17:54:57 +08:00 @WispZhan #74 不管怎么样,都是 G 胖数钱就对了 |
![]() | 76 muzuiget 2021-09-24 17:55:24 +08:00 建议钓鱼时先换个头像。 |
![]() | 77 JensenQian 2021-09-24 17:55:25 +08:00 @JensenQian #75 剩下两个得干活 |
![]() | 78 Junzhou 2021-09-24 17:59:43 +08:00 有五万台物理服务器需要管理的技术公司,会选你们作为技术解决方案,搞笑呢。 |
79 snownarrow 2021-09-24 18:02:58 +08:00 一般都是硬件和软件系统分开的,硬件人力不可计,软件和系统一般也不会一个人管理,也是的有个小团队,服务器除了磁盘,其他的应该都是很稳定的,也就是业务问题多需要多一些人处理 |
![]() | 80 keepeye 2021-09-24 18:04:05 +08:00 5 万台 光每天处理告警就不用睡觉了吧 |
![]() | 81 Junzhou 2021-09-24 18:07:56 +08:00 ![]() 所以你们 5w 个客户,平均两个客户才拥有一台主机吗?话说你们客户人均 0.5 台机器还用得着自动化运维平台吗? https://i.loli.net/2021/09/24/eKuD2nwpEcsxmtQ.png |
![]() | 82 neilyoone 2021-09-24 18:14:16 +08:00 问这个问题的 绝不是 干运维的 |
![]() | 83 TAFMT 2021-09-24 20:14:23 +08:00 阿里:月薪 100w,明天来报道 |
![]() | 84 ajaxfunction 2021-09-24 21:12:48 +08:00 你要见过 5 万台物理机长啥样 就不会说这话了 恐怕你 1 台物理机都没见过,1 个人能把一台 2u 服务器 上到机架吗? |
85 aru 2021-09-24 21:43:56 +08:00 什么?阿里云只有 1 个员工?集团一下子节约几百亿 |
![]() | 86 sickoo 2021-09-24 21:44:10 +08:00 华为:天才少年计划,明天报道 |
87 2i2Re2PLMaDnghL 2021-09-24 21:45:07 +08:00 @JensenQian G 胖:你说我公司有几个人? |
![]() | 88 fs418082760 2021-09-24 21:57:47 +08:00 如果一个人管不好,那怎么管? 招人啊,愚蠢的问题 |
![]() | 89 JensenQian 2021-09-24 23:16:12 +08:00 via Android @2i2Re2PLMaDnghL 比 2 多,比 4 小个人 |
![]() | 90 sutra 2021-09-24 23:18:44 +08:00 好像可以估算一下每天需要更换的硬盘数量。 |
![]() | 91 Microseft 2021-09-24 23:29:33 +08:00 |
92 pjntt 2021-09-24 23:48:00 +08:00 扯个蛋:一个公司运维+200 个外包。远程控制下工单给外包,然后等着完成。 |
93 steptodream 2021-09-25 07:05:33 +08:00 @ajaxfunction 这个的分人了 我也是运维 表示 2U 的很轻松的 撤服务器的时候不怕弄坏 1U 的我经常一手一个 锻炼的时候单手 25KG 哑铃弯举大概一组 12 个 |
![]() | 94 Liang 2021-09-25 09:33:00 +08:00 「 1 个运维管理 5w 台服务器」和「 1 个运维管理 5 亿台服务器」没什么很大的区别了,全球服务器都外包给我管理吧!!! |
![]() | 95 k1z 2021-09-25 09:35:40 +08:00 来套方案的吧? |
96 dextercai 2021-09-25 09:43:55 +08:00 打广告也不能这么打啊 |
![]() | 97 lucybenz 2021-09-25 10:10:49 +08:00 把硬件做成带理财功能的路由器,卖给消费者,提供运维教程即可 50 万台都没问题 |
![]() | 98 danhahaha 2021-09-25 11:29:16 +08:00 可以的,机房总电闸安装一个自动远程控制,运维 24 小时手机随时待命,出问题直接断电重启机房 |
99 piloots 2021-09-25 11:48:23 +08:00 这还不好管?只需要一个超级大的“闸”设置好来电自启,你说什么时候关机就什么时候关机,秒关,启动不归我管。 |
![]() | 100 ragnaroks 2021-09-25 12:40:23 +08:00 理性分析,一天 86400 秒,50000 个机器,每台机只看一眼( 1 秒),这起步得 966,说不定还得加班 |