这些JD本质指向一个统一岗位形态:
Cloud Native Infrastructure Engineer for AI / LLM platform
核心职责:
- 运行超大规模 Kubernetes 集群
- 管理 GPU / HPC 资源
- 构建自动化交付与运维体系
- 优化 AI 训练与推理基础设施
- 做性能调优与可靠性工程
- 平台工程 + 调度 + 系统优化
换句话说:
Kubernetes platform engineer
+ SRE
+ distributed systems
+ GPU cluster infra
+ performance engineer
按出现频率从高到低。
几乎100%岗位要求。
企业级真实要求远不止“会用”。
必须掌握:
-
control plane 组件
- kube-apiserver
- etcd
- scheduler
- controller-manager
-
node runtime
- kubelet
- container runtime (containerd)
-
调度流程
-
controller reconciliation loop
- Pod lifecycle
- Deployment / StatefulSet
- DaemonSet
- Job / CronJob
- CNI原理
- Overlay vs Underlay
- Service / kube-proxy
- Ingress / Gateway
- 网络策略
- CSI
- PV / PVC
- 分布式存储接入(Ceph等)
- 多集群管理
- HA部署
- 滚动升级
- 容量规划
- 故障排查
- Operator / CRD开发
- scheduler扩展
- kubelet调优
- control plane性能优化
- 集群网络调优
- GPU调度
- GitOps (ArgoCD / Flux)
- 多租户
- quota
- RBAC
- policy engine (Kyverno / Gatekeeper)
不是“会命令”,是内核级理解。
必须掌握:
- 进程模型
- 内存管理
- 文件系统
- TCP/IP栈
- namespace
- cgroup
- system call
- 网络调试
- 性能分析
常用诊断工具:
strace
gdb
perf
tcpdump
wireshark
ebpf
必须理解底层实现:
- namespace隔离
- cgroup资源控制
- image layering
- runtime (runc / containerd)
企业级要求:
- 镜像安全扫描
- 镜像仓库管理
- 容器启动性能
- runtime调优
企业全部要求自动化交付。
必须掌握:
- pipeline设计
- artifact管理
- GitOps
- 环境管理
常见工具:
Jenkins
GitLab CI
ArgoCD
Tekton
Helm
Kustomize
Terraform
Ansible
所有岗位强调稳定性。
必须掌握:
- metrics
- logs
- tracing
- SLI / SLO / SLA
- alerting
- capacity planning
- incident response
- RCA
常用组件:
Prometheus
Grafana
ELK
OpenTelemetry
Alertmanager
最常见:
- Go(云原生首选)
- Python(自动化)
- Shell(运维)
高级岗位要求:
- 控制器开发
- 调度器插件
- infra工具开发
这是你目标方向的分水岭。
招聘非常集中。
必须掌握:
- GPU资源管理
- 多GPU通信
- 集群拓扑
- 分布式训练架构
关键技术:
CUDA
NCCL
RDMA
InfiniBand
RoCE
parallel filesystem
不是算法工程,而是系统工程。
必须理解:
- data parallel
- tensor parallel
- pipeline parallel
- expert parallel (MoE)
- batching
- memory管理
- latency优化
JD中明确出现。
本质:
Transformer推理中 缓存 attention key/value 避免重复计算
作用:
降低计算量
降低延迟
提升吞吐
企业级优化关注:
- cache memory layout
- eviction策略
- GPU显存管理
- prefix sharing
- paged KVCache
典型场景:
vLLM
TensorRT-LLM
SGLang
频繁出现:
Milvus
Elasticsearch
pgvector
infra职责:
- 部署
- 扩展
- 查询性能调优
用于进入顶级AI infra团队。
- scheduler framework
- custom resource orchestration
- batch scheduler (Volcano / Kueue)
- multi-tenant GPU scheduling
常见:
KVM
QEMU
KubeVirt
目标:
统一 VM + container 调度。
必须理解:
SR-IOV
RDMA
eBPF
DPDK
VXLAN
常见:
Ceph
Lustre
BeeGFS
Weka
优化重点:
- IO吞吐
- metadata性能
- GPU direct storage
企业极度重视:
- GPU利用率
- 成本优化
- capacity modeling
这是从招聘真实路径反推的。
1 Linux internals 2 网络基础 TCP/IP 3 container runtime 4 Kubernetes cluster运维
5 CI/CD 6 Observability 7 IaC 8 automation scripting
9 Kubernetes internal architecture 10 Operator开发 11 scheduler机制
12 GPU架构 13 distributed training topology 14 HPC network 15 distributed storage
16 inference engine 17 KVCache优化 18 memory scheduling 19 serving architecture
20 cluster scheduling algorithms 21 performance modeling 22 reliability engineering 23 cost optimization
如果压缩成一句话:
Linux system engineer
+ Kubernetes platform engineer
+ distributed systems engineer
+ GPU cluster engineer
+ LLM inference infrastructure engineer
如果目标:
AI超大规模集群 infra
正确顺序:
1 Kubernetes内部原理 2 Linux内核与网络 3 cluster调度机制 4 GPU通信架构 5 LLM推理引擎 6 KVCache与memory优化
很多人顺序是反的。
典型生产环境:
Kubernetes
+
GPU cluster
+
RDMA network
+
Ceph storage
+
Prometheus observability
+
ArgoCD GitOps
+
vLLM inference
我帮你归纳为5大方向:
1 Cloud Native Platform Engineering 2 AI Compute Infrastructure 3 Distributed System Scheduling 4 Performance Engineering 5 Reliability Engineering
必须具备:
- Kubernetes源码级理解
- GPU集群调优经验
- 分布式训练架构理解
- 推理性能优化经验
- 大规模生产系统运维经验