昆仑万维 2050 研究院招算力机房运维 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
外信息请发到 /go/outsourcing 节点。
不要把相同的信息发到不同的节点
lzzyywz
V2EX    酷工作

昆仑万维 2050 研究院招算力机房运维

  •  
  •   lzzyywz 257 天前 2314 次点击
    这是一个创建于 257 天前的主题,其中的信息可能已经有所发展或是发生改变。

    帮朋友发的,有需求请直接联系底部邮箱

    2050 招聘 | 机房运维工程师( GPU 算力卡方向)

    工作地点:香港鸭洲数据中心

    岗位亮点:

    负责 NVIDIA A800/A100 GPU 算力卡 运行维护监控设备状态,优化性能,快速响应故障

    参与机房扩容,打造高可用 GPU 集群

    我们希望你: 熟悉 NVIDIA GPU 架构,了解 A800/A100 及其常见问题

    有 3 年以上机房运维经验,至少 1 年 GPU 服务器 / HPC 经验

    掌握 Linux 、CUDA 、RDMA 网络运维,能快速定位和解决问题

    岗位职责:

    1. 机房设备运维保障
    • 负责机房内 GPU 算力卡(包括 NVIDIA A800 、A100 等)的日常监控、维护及性能优化,确保设备稳定运行。
    • 实时监控算力卡健康状态(如温度、功耗、负载等),及时发现并处理异常告警。
    1. 故障诊断与修复
    • 快速响应算力卡“掉卡”问题,排查硬件连接( PCIe 接口、电源供电)、驱动兼容性、固件版本等潜在故障点。
    • 分析算力卡损坏原因(如硬件老化、散热不良、供电不稳等),制定修复或替换方案,降低设备宕机时间。
    • 配合厂商进行硬件级故障处理,推动 RMA 流程并跟踪解决进度。
    1. 预防性维护与优化
    • 制定算力卡定期巡检计划,执行硬件清洁、散热系统检查、固件升级等预防性维护操作。
    • 优化算力卡集群的资源配置策略,提升 GPU 利用率并延长硬件生命周期。
    • 编写运维手册及故障处理 SOP ,沉淀技术经验。
    1. 跨团队协作
    • 与算法团队、开发团队协同定位 GPU 使用问题(如 CUDA 报错、显存溢出等),提供运维侧支持。
    • 参与机房扩容规划,设计高可用 GPU 集群架构,规避单点故障风险。 任职要求:
    1. 专业技能
    • 熟悉 NVIDIA GPU 架构(如 Ampere 系列),了解 A800/A100 特性及常见故障模式。
    • 具备 RDMA 网络运维能力,熟悉 IB 网卡 / IB 交换机 / RoCE 组网 等硬件细节,能快速分析网络通信问题
    • 掌握 Linux 系统操作及 GPU 驱动管理(如 NVIDIA Driver 、CUDA Toolkit ),熟练使用 nvidia-smi 、dcgmi 等工具。
    • 具备硬件排障能力,能独立更换算力卡、电源模块、散热组件等硬件。
    • 熟悉监控工具(如 Prometheus+Grafana 、Zabbix )及日志分析系统。
    1. 经验背景
    • 3 年以上机房运维经验,至少 1 年 GPU 服务器或高性能计算( HPC )集群运维经验。
    • 有处理大规模 GPU 集群故障(如批量掉卡、硬件兼容性问题)的实战案例。
    1. 软性能力
    • 逻辑清晰,能通过数据分析定位复杂问题根本原因。
    • 具备较强抗压能力,能适应 7×24 小时应急响应。 有兴趣请联系: [email protected]
    3 条回复    2025-03-14 08:44:28 +08:00
    toexplore
        1
    toexplore  
       257 天前
    how much
    csys
        2
    csys  
       257 天前
    你们有多少 A100 啊?
    defunct9
        3
    defunct9  
       256 天前
    这不就是以前得矿工么
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2860 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 23ms UTC 14:12 PVG 22:12 LAX 06:12 JFK 09:12
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86