Skip to content

Latest commit

 

History

History
545 lines (371 loc) · 7.37 KB

File metadata and controls

545 lines (371 loc) · 7.37 KB

一、总体结论(招聘市场真实能力模型)

这些JD本质指向一个统一岗位形态:

Cloud Native Infrastructure Engineer for AI / LLM platform

核心职责:

  • 运行超大规模 Kubernetes 集群
  • 管理 GPU / HPC 资源
  • 构建自动化交付与运维体系
  • 优化 AI 训练与推理基础设施
  • 做性能调优与可靠性工程
  • 平台工程 + 调度 + 系统优化

换句话说:

Kubernetes platform engineer
+ SRE
+ distributed systems
+ GPU cluster infra
+ performance engineer

二、技术能力频率排序(最真实市场权重)

按出现频率从高到低。


第一层(必须掌握,所有岗位共同核心)

1️⃣ Kubernetes(绝对核心中的核心)

几乎100%岗位要求。

企业级真实要求远不止“会用”。

必须掌握:

架构与核心机制

  • control plane 组件

    • kube-apiserver
    • etcd
    • scheduler
    • controller-manager
  • node runtime

    • kubelet
    • container runtime (containerd)
  • 调度流程

  • controller reconciliation loop

工作负载模型

  • Pod lifecycle
  • Deployment / StatefulSet
  • DaemonSet
  • Job / CronJob

网络

  • CNI原理
  • Overlay vs Underlay
  • Service / kube-proxy
  • Ingress / Gateway
  • 网络策略

存储

  • CSI
  • PV / PVC
  • 分布式存储接入(Ceph等)

集群运维

  • 多集群管理
  • HA部署
  • 滚动升级
  • 容量规划
  • 故障排查

高级能力(招聘强烈偏好)

  • Operator / CRD开发
  • scheduler扩展
  • kubelet调优
  • control plane性能优化
  • 集群网络调优
  • GPU调度
  • GitOps (ArgoCD / Flux)

平台工程

  • 多租户
  • quota
  • RBAC
  • policy engine (Kyverno / Gatekeeper)

2️⃣ Linux系统基础(深度要求)

不是“会命令”,是内核级理解

必须掌握:

  • 进程模型
  • 内存管理
  • 文件系统
  • TCP/IP栈
  • namespace
  • cgroup
  • system call
  • 网络调试
  • 性能分析

常用诊断工具:

strace
gdb
perf
tcpdump
wireshark
ebpf

3️⃣ Container技术

必须理解底层实现:

  • namespace隔离
  • cgroup资源控制
  • image layering
  • runtime (runc / containerd)

企业级要求:

  • 镜像安全扫描
  • 镜像仓库管理
  • 容器启动性能
  • runtime调优

4️⃣ DevOps / CI/CD / Platform Engineering

企业全部要求自动化交付。

必须掌握:

  • pipeline设计
  • artifact管理
  • GitOps
  • 环境管理

常见工具:

Jenkins
GitLab CI
ArgoCD
Tekton
Helm
Kustomize
Terraform
Ansible

5️⃣ Observability / SRE体系

所有岗位强调稳定性。

必须掌握:

三大信号

  • metrics
  • logs
  • tracing

体系设计

  • SLI / SLO / SLA
  • alerting
  • capacity planning
  • incident response
  • RCA

常用组件:

Prometheus
Grafana
ELK
OpenTelemetry
Alertmanager

6️⃣ 编程能力(平台开发级别)

最常见:

  • Go(云原生首选)
  • Python(自动化)
  • Shell(运维)

高级岗位要求:

  • 控制器开发
  • 调度器插件
  • infra工具开发

第二层(AI infra 关键能力)

这是你目标方向的分水岭。


7️⃣ GPU / HPC 集群基础设施

招聘非常集中。

必须掌握:

  • GPU资源管理
  • 多GPU通信
  • 集群拓扑
  • 分布式训练架构

关键技术:

CUDA
NCCL
RDMA
InfiniBand
RoCE
parallel filesystem

8️⃣ AI训练与推理架构(infra视角)

不是算法工程,而是系统工程。

必须理解:

训练并行策略

  • data parallel
  • tensor parallel
  • pipeline parallel
  • expert parallel (MoE)

推理优化

  • batching
  • memory管理
  • latency优化

9️⃣ 推理引擎与缓存机制

JD中明确出现。

KVCache(重点)

本质:

Transformer推理中 缓存 attention key/value 避免重复计算

作用:

降低计算量
降低延迟
提升吞吐

企业级优化关注:

  • cache memory layout
  • eviction策略
  • GPU显存管理
  • prefix sharing
  • paged KVCache

典型场景:

vLLM
TensorRT-LLM
SGLang

🔟 向量数据库 / RAG基础设施

频繁出现:

Milvus
Elasticsearch
pgvector

infra职责:

  • 部署
  • 扩展
  • 查询性能调优

第三层(高级 infra specialization)

用于进入顶级AI infra团队。


11️⃣ Kubernetes深度扩展

  • scheduler framework
  • custom resource orchestration
  • batch scheduler (Volcano / Kueue)
  • multi-tenant GPU scheduling

12️⃣ 虚拟化与容器融合

常见:

KVM
QEMU
KubeVirt

目标:

统一 VM + container 调度。


13️⃣ 高性能网络

必须理解:

SR-IOV
RDMA
eBPF
DPDK
VXLAN

14️⃣ 分布式存储

常见:

Ceph
Lustre
BeeGFS
Weka

优化重点:

  • IO吞吐
  • metadata性能
  • GPU direct storage

15️⃣ FinOps / Resource efficiency

企业极度重视:

  • GPU利用率
  • 成本优化
  • capacity modeling

三、学习优先级路线图(严格推荐顺序)

这是从招聘真实路径反推的。


Phase 1 基础设施底座(必须)

1 Linux internals 2 网络基础 TCP/IP 3 container runtime 4 Kubernetes cluster运维


Phase 2 平台工程能力

5 CI/CD 6 Observability 7 IaC 8 automation scripting


Phase 3 云原生深水区

9 Kubernetes internal architecture 10 Operator开发 11 scheduler机制


Phase 4 AI集群基础设施

12 GPU架构 13 distributed training topology 14 HPC network 15 distributed storage


Phase 5 LLM infra specialization

16 inference engine 17 KVCache优化 18 memory scheduling 19 serving architecture


Phase 6 顶级平台工程

20 cluster scheduling algorithms 21 performance modeling 22 reliability engineering 23 cost optimization


四、精简版能力模型(面试导向)

如果压缩成一句话:

Linux system engineer
+ Kubernetes platform engineer
+ distributed systems engineer
+ GPU cluster engineer
+ LLM inference infrastructure engineer

五、你真正应该先学什么(最关键建议)

如果目标:

AI超大规模集群 infra

正确顺序:

1 Kubernetes内部原理 2 Linux内核与网络 3 cluster调度机制 4 GPU通信架构 5 LLM推理引擎 6 KVCache与memory优化

很多人顺序是反的。


六、行业真实技术栈(最常出现组合)

典型生产环境:

Kubernetes
+
GPU cluster
+
RDMA network
+
Ceph storage
+
Prometheus observability
+
ArgoCD GitOps
+
vLLM inference

七、你这份JD的本质技术方向分类

我帮你归纳为5大方向:

1 Cloud Native Platform Engineering 2 AI Compute Infrastructure 3 Distributed System Scheduling 4 Performance Engineering 5 Reliability Engineering


八、如果你想进入顶级AI infra团队(真实门槛)

必须具备:

  • Kubernetes源码级理解
  • GPU集群调优经验
  • 分布式训练架构理解
  • 推理性能优化经验
  • 大规模生产系统运维经验