Skip to content

Latest commit

 

History

History
271 lines (187 loc) · 9 KB

File metadata and controls

271 lines (187 loc) · 9 KB

阶段一:基础筑基

预计时长:6-8周 目标:掌握AI学习必备的数学基础、Python编程和数据处理能力


1.1 数学基础(3-4周)

1.1.1 线性代数(1周)

核心知识点

主题 内容 重要程度 应用场景
向量 向量定义、加减、点积、叉积、范数 ⭐⭐⭐⭐⭐ 特征表示、相似度计算
矩阵 矩阵运算、转置、逆矩阵、秩 ⭐⭐⭐⭐⭐ 数据表示、线性变换
特征值分解 特征值、特征向量、对角化 ⭐⭐⭐⭐ PCA降维、谱聚类
SVD 奇异值分解原理与应用 ⭐⭐⭐⭐ 矩阵分解、推荐系统
线性方程组 求解方法、最小二乘 ⭐⭐⭐ 线性回归

学习目标

  • 理解向量空间的基本概念
  • 熟练进行矩阵运算
  • 理解特征值分解的几何意义
  • 了解SVD的计算过程和应用

推荐资源

  • 视频: 3Blue1Brown《线性代数的本质》(强烈推荐,建立直觉)
  • 课程: MIT 18.06 Linear Algebra
  • 书籍: 《Introduction to Linear Algebra》 - Gilbert Strang

练习任务

  1. 用NumPy实现矩阵乘法、求逆、特征值分解
  2. 手写实现PCA降维算法
  3. 理解并实现SVD分解

1.1.2 微积分(0.5周)

核心知识点

主题 内容 重要程度 应用场景
导数 导数定义、求导法则 ⭐⭐⭐⭐⭐ 梯度计算
偏导数 多元函数偏导数 ⭐⭐⭐⭐⭐ 神经网络训练
链式法则 复合函数求导 ⭐⭐⭐⭐⭐ 反向传播
梯度 梯度向量、方向导数 ⭐⭐⭐⭐⭐ 优化算法
积分 定积分、期望计算 ⭐⭐⭐ 概率分布

学习目标

  • 熟练计算常见函数的导数
  • 理解链式法则(反向传播的基础)
  • 理解梯度的几何意义

推荐资源

  • 视频: 3Blue1Brown《微积分的本质》
  • 课程: MIT 18.01 Single Variable Calculus

练习任务

  1. 手动推导Sigmoid、ReLU、Softmax的导数
  2. 推导简单神经网络的反向传播公式

1.1.3 概率统计(1-1.5周)

核心知识点

主题 内容 重要程度 应用场景
概率基础 条件概率、全概率、贝叶斯定理 ⭐⭐⭐⭐⭐ 贝叶斯推断、朴素贝叶斯
常见分布 伯努利、二项、高斯、多项式分布 ⭐⭐⭐⭐⭐ 建模假设
期望与方差 定义、性质、计算 ⭐⭐⭐⭐⭐ 损失函数、评估指标
极大似然估计 MLE原理与计算 ⭐⭐⭐⭐⭐ 参数估计、模型训练
信息论基础 熵、交叉熵、KL散度 ⭐⭐⭐⭐ 损失函数、模型评估

学习目标

  • 熟练运用贝叶斯定理
  • 理解常见概率分布及其性质
  • 掌握极大似然估计方法
  • 理解熵和交叉熵的含义

推荐资源

  • 课程: 可汗学院概率统计
  • 书籍: 《统计学习方法》第1章
  • 视频: StatQuest系列

练习任务

  1. 推导逻辑回归的损失函数(交叉熵)
  2. 用MLE推导线性回归的最小二乘解
  3. 计算高斯分布的KL散度

1.1.4 优化理论(0.5-1周)

核心知识点

主题 内容 重要程度 应用场景
梯度下降 原理、学习率、收敛性 ⭐⭐⭐⭐⭐ 模型训练核心
随机梯度下降 SGD、Mini-batch SGD ⭐⭐⭐⭐⭐ 大规模训练
动量法 Momentum、Nesterov ⭐⭐⭐⭐ 加速收敛
自适应学习率 AdaGrad、RMSprop、Adam ⭐⭐⭐⭐⭐ 实践中最常用
正则化 L1、L2正则化 ⭐⭐⭐⭐ 防止过拟合

学习目标

  • 理解梯度下降的原理和直觉
  • 了解各种优化器的特点和适用场景
  • 理解正则化的作用

推荐资源

  • 课程: 吴恩达深度学习专项课程第2课
  • 论文: Adam原论文

练习任务

  1. 手写实现梯度下降优化线性回归
  2. 实现并比较SGD、Momentum、Adam的收敛速度
  3. 可视化不同优化器的优化轨迹

1.2 Python编程基础(2-3周)

1.2.1 Python语法基础(1周)

核心知识点

主题 内容 重要程度
基础语法 变量、数据类型、运算符 ⭐⭐⭐⭐⭐
控制流 if/else、for/while、异常处理 ⭐⭐⭐⭐⭐
数据结构 list、dict、set、tuple ⭐⭐⭐⭐⭐
函数 定义、参数、返回值、装饰器 ⭐⭐⭐⭐⭐
面向对象 类、继承、多态、魔法方法 ⭐⭐⭐⭐
模块与包 import、包管理、虚拟环境 ⭐⭐⭐⭐

学习目标

  • 熟练使用Python基础语法
  • 掌握常用数据结构和操作
  • 理解面向对象编程
  • 能够使用pip和虚拟环境管理依赖

推荐资源

  • 课程: Python官方教程
  • 书籍: 《Python编程:从入门到实践》
  • 练习: LeetCode简单题

1.2.2 Python进阶(0.5-1周)

核心知识点

主题 内容 重要程度
列表推导式 简洁的列表生成语法 ⭐⭐⭐⭐
生成器 yield、迭代器协议 ⭐⭐⭐
Lambda 匿名函数、函数式编程 ⭐⭐⭐⭐
上下文管理器 with语句、资源管理 ⭐⭐⭐
类型注解 Type Hints ⭐⭐⭐

练习任务

  1. 完成50道LeetCode简单难度题目
  2. 实现一个简单的数据处理脚本
  3. 练习使用类封装数据结构

1.3 数据科学工具链(1周)

1.3.1 NumPy

核心知识点

主题 内容 重要程度
ndarray 数组创建、属性、类型 ⭐⭐⭐⭐⭐
索引切片 基础索引、高级索引、布尔索引 ⭐⭐⭐⭐⭐
数组运算 广播机制、向量化运算 ⭐⭐⭐⭐⭐
矩阵操作 转置、乘法、求逆、分解 ⭐⭐⭐⭐⭐
随机数 随机数生成、分布采样 ⭐⭐⭐⭐

练习任务

  1. 用NumPy实现矩阵运算
  2. 使用广播机制批量处理数据
  3. 实现K-Means聚类(纯NumPy)

1.3.2 Pandas

核心知识点

主题 内容 重要程度
数据结构 Series、DataFrame ⭐⭐⭐⭐⭐
数据读写 CSV、Excel、JSON ⭐⭐⭐⭐⭐
数据选择 loc、iloc、条件筛选 ⭐⭐⭐⭐⭐
数据清洗 缺失值、重复值、类型转换 ⭐⭐⭐⭐⭐
数据聚合 groupby、agg、pivot ⭐⭐⭐⭐
合并连接 merge、concat、join ⭐⭐⭐⭐

练习任务

  1. 完成一个完整的数据清洗流程
  2. 使用Pandas进行探索性数据分析(EDA)
  3. 处理真实数据集(如Titanic)

1.3.3 Matplotlib/Seaborn

核心知识点

主题 内容 重要程度
基础绑图 折线图、散点图、柱状图 ⭐⭐⭐⭐⭐
子图布局 subplot、figure ⭐⭐⭐⭐
图表美化 标题、标签、图例、颜色 ⭐⭐⭐
Seaborn 统计图表、热力图 ⭐⭐⭐⭐

练习任务

  1. 可视化数据分布(直方图、箱线图)
  2. 绘制相关性热力图
  3. 制作数据分析报告图表

阶段一 Checklist

完成以下任务后,进入阶段二:

  • 数学基础

    • 完成线性代数核心概念学习
    • 理解微积分求导和链式法则
    • 掌握概率统计基础
    • 了解梯度下降优化算法
  • Python编程

    • 熟练使用Python基础语法
    • 完成30+道编程练习题
    • 能够编写面向对象的代码
  • 数据科学工具

    • 熟练使用NumPy进行数值计算
    • 能用Pandas完成数据分析
    • 会用Matplotlib进行数据可视化
  • 综合实践

    • 完成一个数据分析项目(如Titanic生存预测的EDA部分)

下一步

完成本阶段后,进入阶段二:机器学习基础