一、总体结论（招聘市场真实能力模型）

这些JD本质指向一个统一岗位形态：

Cloud Native Infrastructure Engineer for AI / LLM platform

核心职责：

运行超大规模 Kubernetes 集群
管理 GPU / HPC 资源
构建自动化交付与运维体系
优化 AI 训练与推理基础设施
做性能调优与可靠性工程
平台工程 + 调度 + 系统优化

换句话说：

Kubernetes platform engineer
+ SRE
+ distributed systems
+ GPU cluster infra
+ performance engineer

二、技术能力频率排序（最真实市场权重）

按出现频率从高到低。

第一层（必须掌握，所有岗位共同核心）

1️⃣ Kubernetes（绝对核心中的核心）

几乎100%岗位要求。

企业级真实要求远不止“会用”。

必须掌握：

架构与核心机制

control plane 组件
- kube-apiserver
- etcd
- scheduler
- controller-manager
node runtime
- kubelet
- container runtime (containerd)
调度流程
controller reconciliation loop

工作负载模型

Pod lifecycle
Deployment / StatefulSet
DaemonSet
Job / CronJob

网络

CNI原理
Overlay vs Underlay
Service / kube-proxy
Ingress / Gateway
网络策略

存储

CSI
PV / PVC
分布式存储接入（Ceph等）

集群运维

多集群管理
HA部署
滚动升级
容量规划
故障排查

高级能力（招聘强烈偏好）

Operator / CRD开发
scheduler扩展
kubelet调优
control plane性能优化
集群网络调优
GPU调度
GitOps (ArgoCD / Flux)

平台工程

多租户
quota
RBAC
policy engine (Kyverno / Gatekeeper)

2️⃣ Linux系统基础（深度要求）

不是“会命令”，是内核级理解。

必须掌握：

进程模型
内存管理
文件系统
TCP/IP栈
namespace
cgroup
system call
网络调试
性能分析

常用诊断工具：

strace
gdb
perf
tcpdump
wireshark
ebpf

3️⃣ Container技术

必须理解底层实现：

namespace隔离
cgroup资源控制
image layering
runtime (runc / containerd)

企业级要求：

镜像安全扫描
镜像仓库管理
容器启动性能
runtime调优

4️⃣ DevOps / CI/CD / Platform Engineering

企业全部要求自动化交付。

必须掌握：

pipeline设计
artifact管理
GitOps
环境管理

常见工具：

Jenkins
GitLab CI
ArgoCD
Tekton
Helm
Kustomize
Terraform
Ansible

5️⃣ Observability / SRE体系

所有岗位强调稳定性。

必须掌握：

三大信号

metrics
logs
tracing

体系设计

SLI / SLO / SLA
alerting
capacity planning
incident response
RCA

常用组件：

Prometheus
Grafana
ELK
OpenTelemetry
Alertmanager

6️⃣ 编程能力（平台开发级别）

最常见：

Go（云原生首选）
Python（自动化）
Shell（运维）

高级岗位要求：

控制器开发
调度器插件
infra工具开发

第二层（AI infra 关键能力）

这是你目标方向的分水岭。

7️⃣ GPU / HPC 集群基础设施

招聘非常集中。

必须掌握：

GPU资源管理
多GPU通信
集群拓扑
分布式训练架构

关键技术：

CUDA
NCCL
RDMA
InfiniBand
RoCE
parallel filesystem

8️⃣ AI训练与推理架构（infra视角）

不是算法工程，而是系统工程。

必须理解：

训练并行策略

data parallel
tensor parallel
pipeline parallel
expert parallel (MoE)

推理优化

batching
memory管理
latency优化

9️⃣ 推理引擎与缓存机制

JD中明确出现。

KVCache（重点）

本质：

Transformer推理中缓存 attention key/value 避免重复计算

作用：

降低计算量
降低延迟
提升吞吐

企业级优化关注：

cache memory layout
eviction策略
GPU显存管理
prefix sharing
paged KVCache

典型场景：

vLLM
TensorRT-LLM
SGLang

🔟 向量数据库 / RAG基础设施

频繁出现：

Milvus
Elasticsearch
pgvector

infra职责：

部署
扩展
查询性能调优

第三层（高级 infra specialization）

用于进入顶级AI infra团队。

11️⃣ Kubernetes深度扩展

scheduler framework
custom resource orchestration
batch scheduler (Volcano / Kueue)
multi-tenant GPU scheduling

12️⃣ 虚拟化与容器融合

常见：

KVM
QEMU
KubeVirt

目标：

统一 VM + container 调度。

13️⃣ 高性能网络

必须理解：

SR-IOV
RDMA
eBPF
DPDK
VXLAN

14️⃣ 分布式存储

常见：

Ceph
Lustre
BeeGFS
Weka

优化重点：

IO吞吐
metadata性能
GPU direct storage

15️⃣ FinOps / Resource efficiency

企业极度重视：

GPU利用率
成本优化
capacity modeling

三、学习优先级路线图（严格推荐顺序）

这是从招聘真实路径反推的。

Phase 1 基础设施底座（必须）

1 Linux internals 2 网络基础 TCP/IP 3 container runtime 4 Kubernetes cluster运维

Phase 2 平台工程能力

5 CI/CD 6 Observability 7 IaC 8 automation scripting

Phase 3 云原生深水区

9 Kubernetes internal architecture 10 Operator开发 11 scheduler机制

Phase 4 AI集群基础设施

12 GPU架构 13 distributed training topology 14 HPC network 15 distributed storage

Phase 5 LLM infra specialization

16 inference engine 17 KVCache优化 18 memory scheduling 19 serving architecture

Phase 6 顶级平台工程

20 cluster scheduling algorithms 21 performance modeling 22 reliability engineering 23 cost optimization

四、精简版能力模型（面试导向）

如果压缩成一句话：

Linux system engineer
+ Kubernetes platform engineer
+ distributed systems engineer
+ GPU cluster engineer
+ LLM inference infrastructure engineer

五、你真正应该先学什么（最关键建议）

如果目标：

AI超大规模集群 infra

正确顺序：

1 Kubernetes内部原理 2 Linux内核与网络 3 cluster调度机制 4 GPU通信架构 5 LLM推理引擎 6 KVCache与memory优化

很多人顺序是反的。

六、行业真实技术栈（最常出现组合）

典型生产环境：

Kubernetes
+
GPU cluster
+
RDMA network
+
Ceph storage
+
Prometheus observability
+
ArgoCD GitOps
+
vLLM inference

七、你这份JD的本质技术方向分类

我帮你归纳为5大方向：

1 Cloud Native Platform Engineering 2 AI Compute Infrastructure 3 Distributed System Scheduling 4 Performance Engineering 5 Reliability Engineering

八、如果你想进入顶级AI infra团队（真实门槛）

必须具备：

Kubernetes源码级理解
GPU集群调优经验
分布式训练架构理解
推理性能优化经验
大规模生产系统运维经验

FilesExpand file tree

extract.md

Latest commit

History

extract.md

File metadata and controls

一、总体结论（招聘市场真实能力模型）

二、技术能力频率排序（最真实市场权重）

第一层（必须掌握，所有岗位共同核心）

1️⃣ Kubernetes（绝对核心中的核心）

架构与核心机制

工作负载模型

网络

存储

集群运维

高级能力（招聘强烈偏好）

平台工程

2️⃣ Linux系统基础（深度要求）

3️⃣ Container技术

4️⃣ DevOps / CI/CD / Platform Engineering

5️⃣ Observability / SRE体系

三大信号

体系设计

6️⃣ 编程能力（平台开发级别）

第二层（AI infra 关键能力）

7️⃣ GPU / HPC 集群基础设施

8️⃣ AI训练与推理架构（infra视角）

训练并行策略

推理优化

9️⃣ 推理引擎与缓存机制

KVCache（重点）

🔟 向量数据库 / RAG基础设施

第三层（高级 infra specialization）

11️⃣ Kubernetes深度扩展

12️⃣ 虚拟化与容器融合

13️⃣ 高性能网络

14️⃣ 分布式存储

15️⃣ FinOps / Resource efficiency

三、学习优先级路线图（严格推荐顺序）

Phase 1 基础设施底座（必须）

Phase 2 平台工程能力

Phase 3 云原生深水区

Phase 4 AI集群基础设施

Phase 5 LLM infra specialization

Phase 6 顶级平台工程

四、精简版能力模型（面试导向）

五、你真正应该先学什么（最关键建议）

六、行业真实技术栈（最常出现组合）

七、你这份JD的本质技术方向分类

八、如果你想进入顶级AI infra团队（真实门槛）