我们正在寻找一位兼具深厚技术功底与卓越客户服务意识的交付运维工程师。您将作为我们“AI原生研发平台”与关键企业客户之间的技术桥梁,主导产品在客户私有化环境中的部署、集成、上线与持续运维。您的核心使命是确保我们的先进AI技术(包括大模型推理服务)能够稳定、安全、高效地在客户内部落地,并创造显著价值。
一、岗位职责
(一、)项目交付与部署
1、基础设施准备:在客户现场完成服务器上架、操作系统安装(如CentOS/Ubuntu/Rocky Linux)、基础网络配置(VLAN、路由、DNS)、存储挂载及RAID/文件系统调优,确保底层环境满足平台要求。
2、主导私有化部署:在客户现场或指定的云环境中,独立完成AI Coding智能体平台的全套部署,包括基础环境检查、依赖安装、容器化部署(K8s/Docker)、多节点/多卡大模型推理集群搭建(如NVIDIA GPU调度、RDMA网络配置)、网络与存储配置、高可用集群搭建等。
3、系统集成与调试:将我们的平台与客户现有研发工具链(如GitLab、Jenkins、Jira、Confluence、企业内部认证系统如LDAP/AD等)进行深度集成、联调和测试。
4、定制化适配:根据客户特定的安全策略、网络架构和业务流程,调整平台配置,编写必要的脚本或工具以满足客户化需求。
5、 性能调优与压测:对系统整体进行性能基准测试、压力测试和瓶颈分析,并提供调优方案。
6、针对大模型服务:进行模型推理的参数调优(如批处理大小、显存优化、并行策略选择),在多卡/多机环境下实现高吞吐、低延迟;能够使用vLLM、TGI、TensorRT-LLM、DeepSpeed、Megatron-LM等框架进行性能调优。
(二)、运维支持与客户成功
1、生产环境运维:提供及时的生产环境支持,能够快速定位并解决客户环境故障(包括硬件告警、内核问题、网络丢包等)。
2、监控与诊断:建立并维护系统监控(如Prometheus/Grafana)、日志收集(如ELK)和告警体系,主动发现潜在问题。
3、知识传递与培训:为客户IT团队及最终用户提供系统操作、日常维护及故障排查的培训,编写清晰的技术文档和运维手册。
4、需求反馈:作为客户的“技术代言人”,收集并准确传达客户对产品的功能、性能及易用性反馈,协同内部研发团队推动产品优化。
(三)、流程与规范
1、交付标准化:总结交付经验,参与制定和优化部署checklist、自动化部署脚本、最佳实践指南,提升团队整体交付效率。
2、安全合规:确保所有交付动作符合公司和客户的安全规范与审计要求。
任职要求
二、必备条件
1、计算机科学或相关专业本科及以上学历,拥有3年以上企业级软件(尤其是SaaS/PaaS平台、大数据、AI平台或复杂中间件)的私有化交付、系统集成或运维开发(DevOps/SRE)经验。
2、精通 Linux 操作系统管理、网络配置及性能调优。
3、精通容器化技术:Docker 及容器编排工具 Kubernetes。
4、熟悉至少一种公有云(AWS/Aliyun/Tencent Cloud/Huawei Cloud)的IaaS服务。
5、熟练使用 CI/CD 工具(如 Jenkins, GitLab CI, ArgoCD)及配置管理工具(如 Ansible, Terraform)。
6、具备扎实的脚本能力(Shell/Python/Go 至少一种)。
7、系统集成经验:有将第三方系统与客户内部目录服务(LDAP/AD)、代码仓库、项目管理工具等进行集成的实际经验。
8、熟悉常见服务器硬件(CPU/内存/磁盘/GPU卡)的运维知识,包括固件升级、RAID配置、硬件监控等。
9、能够独立完成物理机或虚拟机的操作系统安装、基础网络维护(如交换机端口配置、VLAN划分、静态路由、tcpdump抓包分析)。
10、了解数据中心基本规范(如电源、散热、机柜布线)。
11、卓越的客户沟通能力:能够与非技术背景的客户清晰沟通,管理客户预期,并建立信任。
12、强大的问题解决能力:在面对复杂、模糊的现场环境时,能快速分析、定位并解决问题。
13、抗压能力与责任心:适应高频出差和快节奏的项目交付周期,对线上系统稳定性和客户满意度有强烈的责任心。
14团队协作:具备优秀的团队合作精神,能与销售、产品、研发团队高效协同。
三、优先条件(加分项)
1、有AI、机器学习平台或代码开发工具(如IDE、静态分析工具)的交付/运维经验。
2、具备私有化大模型推理服务集群的部署、测试与调优经验:熟悉多卡/多机环境下的模型切分策略(如张量并行、流水线并行),能够使用 vLLM, TGI, TensorRT-LLM, DeepSpeed, Megatron-LM 等推理或训练框架,并理解大模型性能调优、资源管理与成本控制。
3、熟悉企业级安全规范、等保要求及其实施。
4、了解微服务架构的监控、链路追踪(如 SkyWalking, Jaeger)。
5、具备相关云平台或Kubernetes认证(如 CKA, CKAD)。
6、有从0到1主导大型项目交付落地的完整经验。
