This topic created in 152 days ago, the information mentioned may be changed or developed.
有大规模集群的运维( 1200 台服务器)和完整的云化改造到 CI/CD 经验,写过 Operator
AI 相关的做过 argoworkflow+ray 做异构编排,kubeflow 和 GPU 的调度也了解( DRA )
base 江浙沪或者远程都可以
VX:RkxNMjEwCg==
3 replies 2025-11-28 15:08:52 +08:00  | | 1 fourhu Nov 28, 2025 这经验找 ai infra 的应该很好找吧 |
 | | 3 tommydong Nov 28, 2025 这个 1200 台服务器包括多少台 gpu ? |