我们正在寻找一位兼具深厚技术视野与卓越领导能力的交付运维总监。您将负责领导整个交付运维团队,确保公司“AI原生研发平台”及大模型相关产品在各类企业客户私有化环境中的顺利落地、稳定运行与持续优化。您不仅是团队的技术导师和决策者,更是客户信赖的专家顾问。您的核心使命是:通过建立高效、标准化的交付运维体系,提升客户满意度,驱动产品与服务的持续进化。
一、岗位职责
(一)、 团队管理与建设
1、团队搭建与培养:负责交付运维团队的招聘、培训、绩效考核与职业发展规划,打造一支技术过硬、客户意识强的工程师队伍。
2、资源调度与项目管理:合理分配团队资源,管理多个并行项目的交付优先级,确保关键项目按时、高质量完成。
3、知识沉淀与传承:建立团队内部知识库、案例库和培训机制,持续提升团队整体技术能力和问题解决效率。
(二)、 交付策略与流程优化
1、交付标准化:主导制定和迭代私有化部署的标准化流程(SOP)、自动化工具链(如Ansible/Terraform脚本)、环境检查清单、应急预案等,将个人经验转化为团队可复用的最佳实践。
2、效率提升:持续优化交付周期,引入自动化测试、持续集成/持续部署(CI/CD)流水线,减少人工干预,提高部署成功率。
3、质量与安全:建立交付质量门禁和安全合规审查机制,确保所有交付物符合公司及客户的安全审计要求。
(三)、客户支持与技术决策
1、关键项目攻坚:亲自参与高复杂度、高战略价值客户的交付过程,解决多卡/多机大模型集群部署、异构网络集成、性能瓶颈等疑难问题。
2、 现场决策:在客户现场或线上支持中,能够根据实际情况独立做出技术决策(如架构调整、资源扩容、降级方案),快速解决客户问题,平衡风险与收益。
3、客户关系维护:作为交付侧的最高技术接口,与客户CTO、IT负责人等高层建立信任,主动管理客户预期,化解冲突,提升NPS。
(四)、跨部门协同与产品反馈
1、研发协同:定期向产品与研发团队同步客户环境中的共性痛点、性能瓶颈和功能需求,推动产品可部署性、可运维性的根本改进。
2、销售与售前支持:协助售前团队进行方案评审、技术可行性评估和交付成本估算,为合同SLA提供专业依据。
3、客户成功联动:与客户成功经理紧密配合,从运维角度提出客户健康度评分模型,主动预防重大故障。
二、任职要求
1、计算机科学或相关专业本科及以上学历。
2、8年以上企业级软件(SaaS/PaaS/AI平台/大数据/中间件)的私有化交付、系统集成或SRE经验,其中至少3年以上团队管理经验。
3、拥有从0到1主导大型、复杂企业级项目完整交付落地的成功案例。
4、熟练掌握Kubernetes原理、操作和Docker容器化技术
5、深入理解:Linux操作系统、网络(DNS/负载均衡/防火墙)、存储(Ceph/NFS/Local PV)。
6、熟悉大模型推理服务的私有化部署,具备多卡/多机集群(NVIDIA GPU、RDMA)的搭建、参数调优(批处理、显存优化、并行策略)和性能压测经验。
7、掌握至少一种配置管理/自动化部署工具(Ansible/Terraform)及CI/CD工具(Jenkins/GitLab CI/ArgoCD)。
8、具备脚本开发能力(Shell/Python/Go),能编写自动化诊断工具。
9、熟悉服务器硬件(CPU/内存/GPU/RAID)、操作系统、基础网络维护(VLAN、路由、tcpdump),能够指导团队完成底层环境准备。
10、团队领导力:能够激励团队、公正考核、识别人才并帮助成员成长。
11、客户沟通与决策能力:具备出色的高层客户沟通技巧,能在信息不完整的情况下做出合理的技术决策,敢于承担责任。
12、流程建设能力:善于抽象总结,将零散经验固化为可推广的最佳实践和自动化工具。
13、抗压与多任务处理:能同时应对多个紧急项目,适应高频出差及客户现场高压环境。
三、优先条件(加分项)
1、有AI/机器学习平台或代码智能类产品的交付运维团队管理经验。
2、熟悉大模型推理框架(vLLM, TGI, TensorRT-LLM, DeepSpeed, Megatron-LM)及多机多卡调优的实际生产案例。
3、持有Kubernetes认证(CKA/CKAD)或云架构师认证。
4、具备ITIL、PMP等流程管理或项目管理认证。
5、有从混乱到规范,成功建立交付运维体系并大幅提升效率的经验。
