- 学习目标:理论与实践并重
- 重点方向:大语言模型(LLM)+ 计算机视觉(CV)+ 多模态
- 预计周期:60-80周(全职学习可压缩到12-15个月)
阶段一:基础筑基 (6-8周)
├── 数学基础 (3-4周)
│ ├── 线性代数
│ ├── 微积分
│ ├── 概率统计
│ └── 优化理论
├── Python编程 (2-3周)
│ ├── 语法基础
│ ├── 面向对象
│ └── 数据结构
└── 数据科学工具 (1周)
├── NumPy
├── Pandas
└── Matplotlib
│
▼
阶段二:机器学习 (6-8周)
├── 监督学习 (3-4周)
│ ├── 线性模型
│ ├── 树模型
│ ├── SVM
│ └── 贝叶斯方法
├── 无监督学习 (1-2周)
│ ├── 聚类
│ ├── 降维
│ └── 异常检测
└── 模型评估 (2周)
├── 评估指标
├── 交叉验证
└── 特征工程
│
▼
阶段三:深度学习基础 (6-8周)
├── 神经网络原理 (2周)
│ ├── MLP
│ ├── 激活函数
│ ├── 反向传播
│ └── 优化器
├── PyTorch框架 (2周)
│ ├── 张量操作
│ ├── 自动微分
│ └── 模型训练
└── 经典架构 (2-4周)
├── CNN (基础)
└── RNN/LSTM
│
▼
┌───────────────────────────────────────────────────────────────┐
│ 学习路径分支选择 │
│ │
│ ┌─────────────────┐ ┌─────────────────┐ │
│ │ CV方向分支 │ │ NLP方向分支 │ │
│ │ │ │ │ │
│ │ 阶段3.5 计算机视觉│ │ 阶段四 NLP基础 │ │
│ │ ↓ │ │ ↓ │ │
│ │ 阶段3.6 生成模型 │ │ 阶段五 Transformer│ │
│ │ │ │ ↓ │ │
│ │ │ │ 阶段六 LLM │ │
│ └────────┬────────┘ └────────┬────────┘ │
│ │ │ │
│ └────────────┬───────────────────┘ │
│ ▼ │
│ 阶段七:多模态学习 (融合) │
└───────────────────────────────────────────────────────────────┘
│
▼
阶段3.5:计算机视觉基础 (6-8周) ⭐CV方向
├── CNN深入 (2周)
│ ├── 卷积原理
│ ├── 经典架构
│ └── ResNet/EfficientNet
├── 目标检测 (2周)
│ ├── R-CNN系列
│ ├── YOLO系列
│ └── NMS/IoU
├── 图像分割 (1-2周)
│ ├── FCN/U-Net
│ ├── DeepLab
│ └── Mask R-CNN
└── 迁移学习 (1-2周)
├── 预训练模型
├── 微调策略
└── 数据增强
│
▼
阶段3.6:生成模型 (6-8周) ⭐CV方向
├── VAE (1-2周)
│ ├── 自编码器
│ ├── 变分推断
│ └── 重参数化
├── GAN (2-3周)
│ ├── 对抗训练
│ ├── DCGAN/StyleGAN
│ └── 条件生成
└── Diffusion (2-3周)
├── DDPM/DDIM
├── Latent Diffusion
└── Stable Diffusion
│
▼
阶段四:NLP基础 (4-6周) ⭐NLP方向
├── 文本处理 (1周)
│ ├── 分词技术
│ └── 文本表示
├── 词向量 (1-2周)
│ ├── Word2Vec
│ ├── GloVe
│ └── FastText
└── 序列建模 (2-3周)
├── Seq2Seq
├── 注意力初探
└── 语言模型
│
▼
阶段五:Transformer (6-8周) ⭐NLP方向
├── 注意力机制 (2周)
│ ├── Self-Attention
│ ├── Multi-Head
│ └── 位置编码
├── Transformer架构 (2周)
│ ├── Encoder-Decoder
│ ├── Layer Norm
│ └── 手写实现
└── 预训练模型 (2-4周)
├── BERT
├── GPT
└── HuggingFace
│
▼
阶段六:大语言模型 (8-12周) ⭐NLP核心
├── LLM原理 (2-3周)
│ ├── 发展历程
│ ├── Scaling Laws
│ └── 训练流程
├── Prompt Engineering (2周)
│ ├── 设计原则
│ ├── Few-shot
│ └── CoT推理
├── 模型微调 (2-3周)
│ ├── LoRA/QLoRA
│ ├── 指令微调
│ └── RLHF/DPO
├── RAG (2周)
│ ├── 架构设计
│ ├── 向量数据库
│ └── 检索优化
└── Agent (2周)
├── 架构设计
├── Function Calling
└── LangChain
│
▼
阶段七:多模态学习 (6-8周) ⭐融合方向
├── 多模态基础 (1周)
│ ├── 跨模态对齐
│ ├── 模态融合
│ └── 对比学习
├── CLIP (2周)
│ ├── 架构原理
│ ├── Zero-shot
│ └── 图像检索
├── 视觉语言模型 (2周)
│ ├── BLIP/BLIP-2
│ ├── LLaVA
│ └── Qwen-VL
└── 多模态大模型 (2周)
├── GPT-4V
├── Gemini
└── 架构设计
│
▼
阶段八:视频理解与生成 (4-6周) ⭐进阶
├── 视频理解 (2周)
│ ├── 3D CNN
│ ├── 双流网络
│ └── Video Transformer
└── 视频生成 (2-4周)
├── Stable Video Diffusion
├── Sora原理分析
└── 时序一致性
│
▼
阶段九:工程实践 (4-6周)
├── 模型部署
│ ├── 量化
│ ├── 推理加速
│ └── 服务化
└── 项目实战
├── RAG问答系统
├── 智能客服
├── 多模态应用
└── 视频分析系统
| 阶段 | 时长 | 里程碑目标 | 验收标准 |
|---|---|---|---|
| 阶段一 | 6-8周 | 掌握Python数据分析 | 能独立完成数据清洗和可视化分析 |
| 阶段二 | 6-8周 | 理解机器学习算法 | 完成一个Kaggle入门竞赛 |
| 阶段三 | 6-8周 | 掌握深度学习基础 | 能用PyTorch训练并调优模型 |
| 阶段3.5 | 6-8周 | 掌握计算机视觉 | 完成目标检测或图像分割项目 |
| 阶段3.6 | 6-8周 | 掌握生成模型 | 训练自己的GAN或Diffusion模型 |
| 阶段四 | 4-6周 | 理解NLP核心概念 | 完成文本分类或情感分析任务 |
| 阶段五 | 6-8周 | 精通Transformer | 手写Transformer,熟练使用HuggingFace |
| 阶段六 | 8-12周 | 掌握LLM技术栈 | 完成RAG系统或微调一个LLM |
| 阶段七 | 6-8周 | 掌握多模态技术 | 完成图文检索或视觉问答项目 |
| 阶段八 | 4-6周 | 掌握视频模型 | 完成视频分类或视频生成实验 |
| 阶段九 | 4-6周 | 具备工程能力 | 完成一个端到端项目部署上线 |
根据个人兴趣和职业规划,可以选择不同的学习路径:
阶段1 → 阶段2 → 阶段3 → 阶段4 → 阶段5 → 阶段6 → 阶段7 → 阶段9
适合人群:希望从事对话系统、文本生成、智能客服等方向 预计时长:40-56周
阶段1 → 阶段2 → 阶段3 → 阶段3.5 → 阶段3.6 → 阶段7 → 阶段8 → 阶段9
适合人群:希望从事图像识别、目标检测、AI绘画、视频生成等方向 预计时长:44-60周
阶段1 → 阶段2 → 阶段3 →
并行学习 {阶段3.5 + 阶段3.6 (CV) | 阶段4 + 阶段5 + 阶段6 (NLP)} →
阶段7 (多模态融合) → 阶段8 → 阶段9
适合人群:希望成为全栈AI工程师,掌握多领域技术 预计时长:60-80周
- 每个知识点先理解原理,再动手实现
- 阅读论文时,尝试复现核心算法
- 项目驱动学习,边做边学
- 不要跳过基础阶段
- 每个阶段有明确的输出物
- 遇到困难及时回顾前置知识
- 核心概念要深入理解,不求全面覆盖
- 重要算法手写实现至少一遍
- 建立知识间的联系
- 坚持记录学习笔记
- 定期复盘和总结
- 输出博客或分享
| 项目 | 阶段 | 难度 | 技术栈 |
|---|---|---|---|
| CIFAR-10图像分类 | 3.5 | ★★☆ | ResNet, PyTorch |
| 自定义目标检测 | 3.5 | ★★★ | YOLOv8, 自定义数据集 |
| 医学图像分割 | 3.5 | ★★★ | U-Net, 医疗数据 |
| DCGAN动漫头像生成 | 3.6 | ★★★ | GAN, CelebA |
| 从零训练Diffusion | 3.6 | ★★★★ | DDPM, CIFAR-10 |
| Stable Diffusion微调 | 3.6 | ★★★★ | LoRA, DreamBooth |
| 项目 | 阶段 | 难度 | 技术栈 |
|---|---|---|---|
| 情感分析系统 | 4 | ★★☆ | LSTM, Word2Vec |
| 手写Transformer | 5 | ★★★★ | PyTorch |
| BERT文本分类 | 5 | ★★★ | HuggingFace |
| RAG问答系统 | 6 | ★★★★ | LangChain, 向量库 |
| LLM微调 | 6 | ★★★★ | LoRA, Qwen |
| 项目 | 阶段 | 难度 | 技术栈 |
|---|---|---|---|
| CLIP图像检索 | 7 | ★★★ | CLIP, Faiss |
| 视觉问答系统 | 7 | ★★★★ | LLaVA, Gradio |
| 视频动作识别 | 8 | ★★★ | Video Transformer |
| 视频生成实验 | 8 | ★★★★ | Stable Video Diffusion |
- 总时长:12-15个月(全栈路径)
- 每阶段按最短时间计算
- 总时长:18-24个月(全栈路径)
- 每阶段按最长时间计算
- 建议每天保持2-3小时学习
工作日(3小时/天):
- 1小时:理论学习(看课程/读书)
- 1.5小时:代码实践
- 0.5小时:笔记整理
周末(6小时/天):
- 2小时:理论深入
- 3小时:项目实践
- 1小时:复盘总结
| 阶段 | 文档链接 | 类型 |
|---|---|---|
| 阶段一 | 基础筑基 | 基础 |
| 阶段二 | 机器学习 | 基础 |
| 阶段三 | 深度学习基础 | 基础 |
| 阶段3.5 | 计算机视觉基础 | CV |
| 阶段3.6 | 生成模型 | CV |
| 阶段四 | NLP基础 | NLP |
| 阶段五 | Transformer | NLP |
| 阶段六 | 大语言模型 | NLP |
| 阶段七 | 多模态学习 | 多模态 |
| 阶段八 | 视频理解与生成 | 视频 |
| 阶段九 | 工程实践 | 工程 |
开始阶段一:基础筑基的学习。