Vol. II · 扩展版
数学三部曲 — 线性代数 · 微积分 · 概率
Est. 2026
A Reading List · 三条路径,一个终点

矩阵,
变化,
不确定 ——

现代 AI 建立在三个数学支柱之上:线性代数让机器学会"表示", 微积分让它学会"优化",概率让它 学会"推断"。这份指南为每一条路径都规划了从直觉到前沿的四步进阶,最后再用一章把三条路汇成一张地图。

学科3 条主线
阶段4 × 3 + 1
书籍30+ 本
课程视频20+ 套
预计周期9 – 24 月

三门语言,共同描述一个世界。

I

线性代数

Linear Algebra · The Geometry of Data

向量、矩阵、空间、变换。AI 里的"数据"——图像、文本、embedding——本质上都是向量。 而训练一个模型,是在某个高维空间里不停地旋转、投影、分解。

让机器学会 · 表示
II

积分

Calculus · The Language of Change

极限、导数、梯度、链式法则。反向传播是链式法则的大规模自动化。每一次神经网络的参数更新, 都是一次"沿着梯度向下"的微积分运算。

让机器学会 · 优化
III

概率统计

Probability · The Calculus of Uncertainty

分布、贝叶斯、期望、熵。现代 ML 的本质是"从数据里估计一个分布", 从朴素贝叶斯到扩散模型,每一步都是对不确定性的建模。

让机器学会 · 推断
I
Track I · Linear Algebra

第一条路 · 矩阵之上的世界

线性代数是 AI 的第一语言。神经网络的每一层都是一次矩阵乘法, embedding 是向量,注意力机制是矩阵运算。先从几何直觉建起,再到系统理论, 最后接入机器学习的视角。
Stage 1 · 建立直觉

先把矩阵,看见

Visual First · Geometry Before Algebra
不要一上来就推公式。线性代数的美在它是 几何 —— 向量是箭头, 矩阵是空间的变换。用视觉化资源建立直觉,后面所有学习都会事半功倍。
向量 线性变换 行列式 特征值 · 特征向量 基变换
Stage 2 · 系统学习

打牢地基

Core Theory · Proofs · Applications
直觉有了,下一步是系统学习。目标:能独立推导、能解决实际问题、遇到新定理时知道为什么成立。
向量空间 正交 SVD 矩阵分解 最小二乘
Stage 3 · 面向机器学习

线性代数 × 数据

Linear Algebra for ML
这是最关键的衔接阶段。纯数学和 AI 之间隔着"为什么 SVD 能做推荐系统"、 "为什么 PCA 是特征值问题"这样的桥梁问题。
PCA 最小二乘回归 核方法 低秩近似
Stage 4 · 进阶方向

矩阵微积分 数值

Matrix Calculus · Numerical LA
训练大模型的世界。对矩阵求导、矩阵指数、随机化算法 —— 这些才是实际写训练代码时真正用到的技术。
矩阵微积分 自动微分 随机化 SVD Krylov 方法

线性代数不是一门关于数字的学科,它是一门关于空间、关于变换的学科。

— Grant Sanderson · 3Blue1Brown
II
Track II · Calculus

第二条路 · 变化的语言

微积分是 AI 学习的动力机。没有导数就没有梯度下降,没有链式法则就没有反向传播,没有泰勒展开就没有牛顿法。 从单变量的直觉到多变量的梯度,再到矩阵微积分与自动微分。
Stage 1 · 建立直觉

重新发现微积分

Visual First · Rediscover Calculus
先从直觉开始。很多人高中学过微积分但不知道它在讲什么。 目标是让你感到"微积分的公式像是你自己发现的",而不是背出来的。
极限 导数 积分 基本定理 泰勒级数
Stage 2 · 系统学习

单变量 → 多变量

Single → Multi-Variable Calculus
机器学习只关心多变量。真实模型的参数都是成千上万维的。 从梯度、Jacobian、Hessian 开始,是跨进 ML 数学的第一道门。
偏导数 梯度 Jacobian Hessian 拉格朗日乘数 多重积分
Stage 3 · 面向机器学习

梯度,链式法则,反向传播

Calculus for ML · Gradients & Backprop
从数学到神经网络的关键一跳。神经网络的训练 = 用链式法则计算梯度 + 用梯度下降更新参数。 这一阶段专门讲清楚这条链。
梯度下降 链式法则 反向传播 自动微分 凸性
Stage 4 · 进阶方向

优化的全貌

Optimization · The Big Picture
微积分在 ML 里的终极形态是优化。凸优化、随机梯度、自适应方法、二阶方法 —— 这里每一个方向都是 AI 的核心引擎。
凸优化 SGD / Adam 二阶方法 变分法

几乎每一个学习算法,本质上都在做一件事 —— 定义一个损失函数,然后沿着它的梯度往下走。

— Yann LeCun · Meta AI
III
Track III · Probability & Statistics

第三条路 · 不确定性的代数

概率是 AI 理解世界的方式。模型的输出是概率分布,损失函数是负对数似然, 扩散模型、VAE、贝叶斯推断 —— 全都基于概率。从直觉,到贝叶斯,到信息论,到图模型。
Stage 1 · 建立直觉

用眼睛看见概率

Visual First · Seeing Uncertainty
概率是最容易"误以为自己懂了"的学科。用交互可视化建立直觉, 让你真正理解期望、方差、贝叶斯定理到底在说什么。
样本空间 条件概率 贝叶斯定理 随机变量 分布
Stage 2 · 系统学习

真正懂概率论

Rigorous Probability Theory
这是整个数学三部曲中最值得投入时间的一阶段。 概率论直觉上容易错,不系统学会在以后任何 ML 任务里都出问题。
联合/边际/条件分布 期望 · 方差 大数定律 中心极限定理 马尔可夫链
Stage 3 · 面向机器学习

贝叶斯 · 推断 · 信息

Bayesian Thinking for ML
机器学习的一大半,就是换了名字的贝叶斯推断。 最大似然 = 给定模型拟合数据;贝叶斯 = 给定数据更新对模型的信念。 这一阶段把概率接入到 ML 的语言里。
最大似然 MAP 贝叶斯推断 信息熵 / KL 散度 指数族
Stage 4 · 进阶方向

图模型 · 采样 · 因果

Graphical Models · MCMC · Causality
现代 AI 的概率前沿。贝叶斯网络、MCMC、变分推断、因果推断 —— 扩散模型、大模型微调、因果 AI 都依赖这一层。
概率图模型 MCMC 变分推断 因果推断

机器学习,本质上是一种认识论 —— 它告诉我们,在有限的数据里,应该如何形成合理的信念

— David MacKay · Cambridge
Final Chapter · Convergence

三条路汇合在一起

现代 AI 是三种数学的合奏。Transformer = 线代(注意力矩阵) + 微积分(反向传播) + 概率(softmax 输出)。 下面这些书把三条路重新编织起来,直接面对 AI 的当下与前沿。
Convergence · 三流合一

数学AI

Integrated · Research-Ready
不要急着读完每一本。到了这个阶段,选方向比读完书重要。 下面是 2024-2026 年最新的几本综合性资源 + 几条前沿路径的入口。
Transformer 数学 Diffusion Models Geometric DL RLHF Scaling Laws
★ 书 · 三合一教材THE ONE BOOK TO START
Mathematics for Machine Learning
Deisenroth, Faisal, Ong · Cambridge · 2020 · 免费 PDF
把 ML 需要的所有数学 —— 线代、微积分、概率、优化 —— 整合进一本书。前半讲数学,后半用数学拆 ML 算法。如果不知道从哪本书开始,就是它。
★ 书 · 深度学习圣经免费在线
Deep Learning
Goodfellow, Bengio, Courville · MIT Press
Part I 是深度学习所需数学的全景。Part II 覆盖 CNN、RNN、自编码器、生成模型。虽然新模型层出不穷,但基础理论在这里。
★ 书 · 实战教材免费 · 含代码
Dive into Deep Learning
Zhang, Lipton, Li, Smola
李沐团队,每章三套代码 (PyTorch / MXNet / TF)。附录有一整章"深度学习需要的数学",是三条主线的完美总结。
书 · 前沿理论arXiv · 2026
Mathematical Theory
of Deep Learning
Petersen, Zech · v4 · 2026.01
用近似、优化、统计学习三大支柱构建深度学习的完整数学框架。最新版本 2026 年 1 月更新。
★ 视频 · 动手实现KARPATHY
Neural Networks
Zero to Hero
Andrej Karpathy · 从零手搓 GPT
OpenAI 前研究员亲自带你从 0 行代码写出一个 GPT。看完之后,三条数学主线会在脑中合为一体。
书 + 课 · 新范式免费
Geometric
Deep Learning
Bronstein, Bruna, Cohen, Veličković
用对称性和几何重新组织 DL —— CNN、GNN、Transformer 是同一个框架的特例。
书 · 强化学习圣经免费
Reinforcement Learning
An Introduction
Sutton & Barto · 第 2 版
从 MDP 一路讲到策略梯度、actor-critic。想懂 ChatGPT 的 RLHF,绕不开这本书。
资源 · 研究工具每日更新
arXiv cs.LG / cs.CL / stat.ML
arxiv.org · Papers with Code · Hugging Face
学到这里,读论文就是日常。推荐配合 Lil'Log、The Gradient、Sebastian Raschka 的 newsletter 作为精选入口。
§ 终 · A Parallel Schedule

三线并行的学习时间线

Linear Algebra
Stage 1
建立直觉
1 – 2 mo · 3B1B + Khan
Stage 2
系统基础
3 – 4 mo · MIT 18.06
Stage 3
面向 ML
2 – 3 mo · MIT 18.065
Stage 4
矩阵微积分
1 – 2 mo · MIT 18.S096
Calculus
Stage 1
建立直觉
1 – 2 mo · 3B1B + OpenStax
Stage 2
单 → 多变量
3 – 4 mo · MIT 18.01+18.02
Stage 3
梯度 · 反传
1 – 2 mo · Coursera + CS231n
Stage 4
优化进阶
2 – 3 mo · Boyd Convex Opt
Probability
Stage 1
建立直觉
1 mo · Seeing Theory + Khan
Stage 2
系统概率论
3 – 4 mo · Harvard Stat 110
Stage 3
贝叶斯 · 信息
2 – 3 mo · Murphy PML + MacKay
Stage 4
图模型 · 因果
2 – 4 mo · 选方向深入
Convergence
Integrated
三流合一 · 手搓 GPT · 读论文 · 选方向
持续 · 从第 3 阶段开始就可以平行启动