Skip to content

Latest commit

 

History

History
343 lines (313 loc) · 12.5 KB

File metadata and controls

343 lines (313 loc) · 12.5 KB

AI算法学习路径总览

目标定位

  • 学习目标:理论与实践并重
  • 重点方向:大语言模型(LLM)+ 计算机视觉(CV)+ 多模态
  • 预计周期:60-80周(全职学习可压缩到12-15个月)

学习路径图

阶段一:基础筑基 (6-8周)
    ├── 数学基础 (3-4周)
    │   ├── 线性代数
    │   ├── 微积分
    │   ├── 概率统计
    │   └── 优化理论
    ├── Python编程 (2-3周)
    │   ├── 语法基础
    │   ├── 面向对象
    │   └── 数据结构
    └── 数据科学工具 (1周)
        ├── NumPy
        ├── Pandas
        └── Matplotlib
            │
            ▼
阶段二:机器学习 (6-8周)
    ├── 监督学习 (3-4周)
    │   ├── 线性模型
    │   ├── 树模型
    │   ├── SVM
    │   └── 贝叶斯方法
    ├── 无监督学习 (1-2周)
    │   ├── 聚类
    │   ├── 降维
    │   └── 异常检测
    └── 模型评估 (2周)
        ├── 评估指标
        ├── 交叉验证
        └── 特征工程
            │
            ▼
阶段三:深度学习基础 (6-8周)
    ├── 神经网络原理 (2周)
    │   ├── MLP
    │   ├── 激活函数
    │   ├── 反向传播
    │   └── 优化器
    ├── PyTorch框架 (2周)
    │   ├── 张量操作
    │   ├── 自动微分
    │   └── 模型训练
    └── 经典架构 (2-4周)
        ├── CNN (基础)
        └── RNN/LSTM
            │
            ▼
    ┌───────────────────────────────────────────────────────────────┐
    │                    学习路径分支选择                              │
    │                                                               │
    │   ┌─────────────────┐              ┌─────────────────┐        │
    │   │   CV方向分支     │              │   NLP方向分支    │        │
    │   │                 │              │                 │        │
    │   │ 阶段3.5 计算机视觉│              │ 阶段四 NLP基础   │        │
    │   │       ↓         │              │      ↓          │        │
    │   │ 阶段3.6 生成模型  │              │ 阶段五 Transformer│       │
    │   │                 │              │      ↓          │        │
    │   │                 │              │ 阶段六 LLM       │        │
    │   └────────┬────────┘              └────────┬────────┘        │
    │            │                                │                 │
    │            └────────────┬───────────────────┘                 │
    │                         ▼                                     │
    │              阶段七:多模态学习 (融合)                           │
    └───────────────────────────────────────────────────────────────┘
            │
            ▼
阶段3.5:计算机视觉基础 (6-8周) ⭐CV方向
    ├── CNN深入 (2周)
    │   ├── 卷积原理
    │   ├── 经典架构
    │   └── ResNet/EfficientNet
    ├── 目标检测 (2周)
    │   ├── R-CNN系列
    │   ├── YOLO系列
    │   └── NMS/IoU
    ├── 图像分割 (1-2周)
    │   ├── FCN/U-Net
    │   ├── DeepLab
    │   └── Mask R-CNN
    └── 迁移学习 (1-2周)
        ├── 预训练模型
        ├── 微调策略
        └── 数据增强
            │
            ▼
阶段3.6:生成模型 (6-8周) ⭐CV方向
    ├── VAE (1-2周)
    │   ├── 自编码器
    │   ├── 变分推断
    │   └── 重参数化
    ├── GAN (2-3周)
    │   ├── 对抗训练
    │   ├── DCGAN/StyleGAN
    │   └── 条件生成
    └── Diffusion (2-3周)
        ├── DDPM/DDIM
        ├── Latent Diffusion
        └── Stable Diffusion
            │
            ▼
阶段四:NLP基础 (4-6周) ⭐NLP方向
    ├── 文本处理 (1周)
    │   ├── 分词技术
    │   └── 文本表示
    ├── 词向量 (1-2周)
    │   ├── Word2Vec
    │   ├── GloVe
    │   └── FastText
    └── 序列建模 (2-3周)
        ├── Seq2Seq
        ├── 注意力初探
        └── 语言模型
            │
            ▼
阶段五:Transformer (6-8周) ⭐NLP方向
    ├── 注意力机制 (2周)
    │   ├── Self-Attention
    │   ├── Multi-Head
    │   └── 位置编码
    ├── Transformer架构 (2周)
    │   ├── Encoder-Decoder
    │   ├── Layer Norm
    │   └── 手写实现
    └── 预训练模型 (2-4周)
        ├── BERT
        ├── GPT
        └── HuggingFace
            │
            ▼
阶段六:大语言模型 (8-12周) ⭐NLP核心
    ├── LLM原理 (2-3周)
    │   ├── 发展历程
    │   ├── Scaling Laws
    │   └── 训练流程
    ├── Prompt Engineering (2周)
    │   ├── 设计原则
    │   ├── Few-shot
    │   └── CoT推理
    ├── 模型微调 (2-3周)
    │   ├── LoRA/QLoRA
    │   ├── 指令微调
    │   └── RLHF/DPO
    ├── RAG (2周)
    │   ├── 架构设计
    │   ├── 向量数据库
    │   └── 检索优化
    └── Agent (2周)
        ├── 架构设计
        ├── Function Calling
        └── LangChain
            │
            ▼
阶段七:多模态学习 (6-8周) ⭐融合方向
    ├── 多模态基础 (1周)
    │   ├── 跨模态对齐
    │   ├── 模态融合
    │   └── 对比学习
    ├── CLIP (2周)
    │   ├── 架构原理
    │   ├── Zero-shot
    │   └── 图像检索
    ├── 视觉语言模型 (2周)
    │   ├── BLIP/BLIP-2
    │   ├── LLaVA
    │   └── Qwen-VL
    └── 多模态大模型 (2周)
        ├── GPT-4V
        ├── Gemini
        └── 架构设计
            │
            ▼
阶段八:视频理解与生成 (4-6周) ⭐进阶
    ├── 视频理解 (2周)
    │   ├── 3D CNN
    │   ├── 双流网络
    │   └── Video Transformer
    └── 视频生成 (2-4周)
        ├── Stable Video Diffusion
        ├── Sora原理分析
        └── 时序一致性
            │
            ▼
阶段九:工程实践 (4-6周)
    ├── 模型部署
    │   ├── 量化
    │   ├── 推理加速
    │   └── 服务化
    └── 项目实战
        ├── RAG问答系统
        ├── 智能客服
        ├── 多模态应用
        └── 视频分析系统

各阶段里程碑

阶段 时长 里程碑目标 验收标准
阶段一 6-8周 掌握Python数据分析 能独立完成数据清洗和可视化分析
阶段二 6-8周 理解机器学习算法 完成一个Kaggle入门竞赛
阶段三 6-8周 掌握深度学习基础 能用PyTorch训练并调优模型
阶段3.5 6-8周 掌握计算机视觉 完成目标检测或图像分割项目
阶段3.6 6-8周 掌握生成模型 训练自己的GAN或Diffusion模型
阶段四 4-6周 理解NLP核心概念 完成文本分类或情感分析任务
阶段五 6-8周 精通Transformer 手写Transformer,熟练使用HuggingFace
阶段六 8-12周 掌握LLM技术栈 完成RAG系统或微调一个LLM
阶段七 6-8周 掌握多模态技术 完成图文检索或视觉问答项目
阶段八 4-6周 掌握视频模型 完成视频分类或视频生成实验
阶段九 4-6周 具备工程能力 完成一个端到端项目部署上线

学习路径选择

根据个人兴趣和职业规划,可以选择不同的学习路径:

路径1:NLP/LLM专精路径

阶段1 → 阶段2 → 阶段3 → 阶段4 → 阶段5 → 阶段6 → 阶段7 → 阶段9

适合人群:希望从事对话系统、文本生成、智能客服等方向 预计时长:40-56周

路径2:CV/生成模型专精路径

阶段1 → 阶段2 → 阶段3 → 阶段3.5 → 阶段3.6 → 阶段7 → 阶段8 → 阶段9

适合人群:希望从事图像识别、目标检测、AI绘画、视频生成等方向 预计时长:44-60周

路径3:全栈AI路径(推荐)

阶段1 → 阶段2 → 阶段3 → 
  并行学习 {阶段3.5 + 阶段3.6 (CV) | 阶段4 + 阶段5 + 阶段6 (NLP)} →
  阶段7 (多模态融合) → 阶段8 → 阶段9

适合人群:希望成为全栈AI工程师,掌握多领域技术 预计时长:60-80周

学习原则

1. 理论与实践结合

  • 每个知识点先理解原理,再动手实现
  • 阅读论文时,尝试复现核心算法
  • 项目驱动学习,边做边学

2. 循序渐进

  • 不要跳过基础阶段
  • 每个阶段有明确的输出物
  • 遇到困难及时回顾前置知识

3. 深度优先

  • 核心概念要深入理解,不求全面覆盖
  • 重要算法手写实现至少一遍
  • 建立知识间的联系

4. 持续积累

  • 坚持记录学习笔记
  • 定期复盘和总结
  • 输出博客或分享

核心实战项目列表

CV方向项目

项目 阶段 难度 技术栈
CIFAR-10图像分类 3.5 ★★☆ ResNet, PyTorch
自定义目标检测 3.5 ★★★ YOLOv8, 自定义数据集
医学图像分割 3.5 ★★★ U-Net, 医疗数据
DCGAN动漫头像生成 3.6 ★★★ GAN, CelebA
从零训练Diffusion 3.6 ★★★★ DDPM, CIFAR-10
Stable Diffusion微调 3.6 ★★★★ LoRA, DreamBooth

NLP方向项目

项目 阶段 难度 技术栈
情感分析系统 4 ★★☆ LSTM, Word2Vec
手写Transformer 5 ★★★★ PyTorch
BERT文本分类 5 ★★★ HuggingFace
RAG问答系统 6 ★★★★ LangChain, 向量库
LLM微调 6 ★★★★ LoRA, Qwen

多模态项目

项目 阶段 难度 技术栈
CLIP图像检索 7 ★★★ CLIP, Faiss
视觉问答系统 7 ★★★★ LLaVA, Gradio
视频动作识别 8 ★★★ Video Transformer
视频生成实验 8 ★★★★ Stable Video Diffusion

时间安排建议

全职学习(每周40小时)

  • 总时长:12-15个月(全栈路径)
  • 每阶段按最短时间计算

兼职学习(每周15-20小时)

  • 总时长:18-24个月(全栈路径)
  • 每阶段按最长时间计算
  • 建议每天保持2-3小时学习

每日学习安排参考

工作日(3小时/天):
- 1小时:理论学习(看课程/读书)
- 1.5小时:代码实践
- 0.5小时:笔记整理

周末(6小时/天):
- 2小时:理论深入
- 3小时:项目实践
- 1小时:复盘总结

阶段导航

阶段 文档链接 类型
阶段一 基础筑基 基础
阶段二 机器学习 基础
阶段三 深度学习基础 基础
阶段3.5 计算机视觉基础 CV
阶段3.6 生成模型 CV
阶段四 NLP基础 NLP
阶段五 Transformer NLP
阶段六 大语言模型 NLP
阶段七 多模态学习 多模态
阶段八 视频理解与生成 视频
阶段九 工程实践 工程

下一步

开始阶段一:基础筑基的学习。