A Reading List · 三条路径,一个终点

矩阵,
变化, 与
不确定 ——

现代 AI 建立在三个数学支柱之上:线性代数让机器学会"表示", 微积分让它学会"优化",概率让它学会"推断"。这份指南为每一条路径都规划了从直觉到前沿的四步进阶,最后再用一章把三条路汇成一张地图。

学科3 条主线

阶段4 × 3 + 1

书籍30+ 本

课程视频20+ 套

预计周期9 – 24 月

§ 序 · 三条主线

三门语言,共同描述一个世界。

线性代数

Linear Algebra · The Geometry of Data

向量、矩阵、空间、变换。AI 里的"数据"——图像、文本、embedding——本质上都是向量。而训练一个模型,是在某个高维空间里不停地旋转、投影、分解。

让机器学会 · 表示

微积分

Calculus · The Language of Change

极限、导数、梯度、链式法则。反向传播是链式法则的大规模自动化。每一次神经网络的参数更新, 都是一次"沿着梯度向下"的微积分运算。

让机器学会 · 优化

III

概率统计

Probability · The Calculus of Uncertainty

分布、贝叶斯、期望、熵。现代 ML 的本质是"从数据里估计一个分布", 从朴素贝叶斯到扩散模型,每一步都是对不确定性的建模。

让机器学会 · 推断

Track I · Linear Algebra

第一条路 · 矩阵之上的世界

线性代数是 AI 的第一语言。神经网络的每一层都是一次矩阵乘法, embedding 是向量,注意力机制是矩阵运算。先从几何直觉建起,再到系统理论, 最后接入机器学习的视角。

Stage 1 · 建立直觉

先把矩阵,看见

Visual First · Geometry Before Algebra

不要一上来就推公式。线性代数的美在它是几何 —— 向量是箭头, 矩阵是空间的变换。用视觉化资源建立直觉,后面所有学习都会事半功倍。

向量线性变换行列式特征值 · 特征向量基变换

视频 · 视觉化课程★ 起点

Essence of Linear Algebra

3Blue1Brown · Grant Sanderson · 15 集

入门黄金标准。用动画把向量、线性变换、行列式、特征值讲得前所未有地清楚。先看它,再学任何教材,等于换了一个脑子。

视频 · 基础配合练习

Khan Academy
Linear Algebra

Salman Khan · 免费 · 含练习

3B1B 管"懂",可汗管"会做题"。两者互补。高中数学生疏的从这里起步最稳。

书 · 交互式免费

Immersive Linear Algebra

Ström, Åström, Akenine-Möller · 网页版

所有图示都能拖动交互的线代教材 —— 拖一下向量,矩阵立刻变。3B1B 的文字版伙伴。

书 · 入门教材免费 PDF

Linear Algebra · Hefferon

Jim Hefferon · 开源 · 完整习题答案

免费线代入门教材里最好的一本。叙述清晰,证明严谨但不吓人,习题答案全公开。

Stage 2 · 系统学习

打牢地基

Core Theory · Proofs · Applications

直觉有了,下一步是系统学习。目标:能独立推导、能解决实际问题、遇到新定理时知道为什么成立。

向量空间正交 SVD 矩阵分解最小二乘

课程 · MIT★ 经典

MIT 18.06
Linear Algebra

Gilbert Strang · OCW · 免费全套

Strang 是线代教学的传奇,这门课可能是全世界最好的大学线代课。视频、讲义、习题、考试全免费。

书 · 教材配合 18.06

Introduction to
Linear Algebra

Gilbert Strang · 第 6 版

和 18.06 一一对应。像一位老教授坐在你对面讲课。

书 · 进阶免费 PDF

Linear Algebra Done Right

Sheldon Axler · 第 4 版 · Springer

用"不靠行列式"的路径重写线代。对想要数学成熟度的人,读完会豁然开朗。

书 · 交互教材免费

Interactive
Linear Algebra

Dan Margalit, Joseph Rabinoff · Georgia Tech

GT 的开源交互教材。每个概念都配可拖动的可视化。

Stage 3 · 面向机器学习

线性代数 × 数据

Linear Algebra for ML

这是最关键的衔接阶段。纯数学和 AI 之间隔着"为什么 SVD 能做推荐系统"、 "为什么 PCA 是特征值问题"这样的桥梁问题。

PCA 最小二乘回归核方法低秩近似

★ 核心课程 · MITLINEAR ALGEBRA × DEEP LEARNING

MIT 18.065 · Matrix Methods in Data Analysis, Signal Processing, and ML

Gilbert Strang · Spring 2018 · 36 Lectures · 免费

如果只能选一门课,就这个。四大主题:线性代数 / 概率统计 / 优化 / 深度学习。讲 SVD、PCA、反向传播、神经网络 —— 每一个都先从矩阵视角讲清楚。

课程 · 实战fast.ai · 免费

Computational
Linear Algebra

Rachel Thomas · fast.ai · Jupyter

完全实战路线 —— 所有概念都用 Python 实现。从随机 SVD 讲到 PageRank。

书 · 研究生级Springer

Linear Algebra and Optimization for ML

Charu C. Aggarwal · 2020

以 ML 问题驱动的线代 + 优化教材。讲推荐系统、谱聚类、核方法。

Stage 4 · 进阶方向

矩阵微积分与数值

Matrix Calculus · Numerical LA

训练大模型的世界。对矩阵求导、矩阵指数、随机化算法 —— 这些才是实际写训练代码时真正用到的技术。

矩阵微积分自动微分随机化 SVD Krylov 方法

课程 · MIT IAP★ 稀缺

Matrix Calculus for ML and Beyond

Alan Edelman, Steven G. Johnson · MIT 18.S096 · 2023

专门讲"对矩阵求导"—— 这个在 18.01 和 18.02 里都没教,但每写一行神经网络代码都要用到。

论文 · 教程免费

The Matrix Calculus You Need for Deep Learning

Parr, Howard · arXiv

深度学习所需的矩阵微积分,一个短教程搞定,很友好。

书 · 教材配合 18.065

Linear Algebra
and Learning from Data

Gilbert Strang · 2019

Strang 为 18.065 写的教材 —— 把线代、概率、优化、深度学习缝到一本书里。

书 · 应用向免费 PDF

Vectors, Matrices and Least Squares

Boyd & Vandenberghe · Cambridge · 2018

Stanford Boyd 为工程师写的应用线代。语言简洁,例子全是真实数据科学问题。

线性代数不是一门关于数字的学科,它是一门关于空间、关于变换的学科。

— Grant Sanderson · 3Blue1Brown

Track II · Calculus

第二条路 · 变化的语言

微积分是 AI 学习的动力机。没有导数就没有梯度下降,没有链式法则就没有反向传播,没有泰勒展开就没有牛顿法。从单变量的直觉到多变量的梯度,再到矩阵微积分与自动微分。

Stage 1 · 建立直觉

重新发现微积分

Visual First · Rediscover Calculus

先从直觉开始。很多人高中学过微积分但不知道它在讲什么。目标是让你感到"微积分的公式像是你自己发现的",而不是背出来的。

极限导数积分基本定理泰勒级数

视频 · 视觉化课程★ 起点

Essence of Calculus

3Blue1Brown · Grant Sanderson · 12 集

和 Essence of Linear Algebra 是姐妹篇。用圆的面积一路推出微积分基本定理 —— 看完你会明白,微积分是被人类"发现"的,不是"发明"的。

视频 · 基础配合习题

Khan Academy
Calculus I–II

Salman Khan · 免费 · 含练习

最系统的免费入门。从极限一路讲到级数,每一节都配可交互的习题系统。

书 · 入门教材免费 · 含 PDF

Calculus · OpenStax

Strang, Herman et al. · Volumes 1–3

OpenStax 免费教材三卷本。单变量、多变量、级数 & 微分方程,每一卷都有完整习题、答案和在线版。

书 · 大众科普读物

Infinite Powers

Steven Strogatz · 2019

微积分的历史与思想之美。读它是为了获得"为什么要学微积分"的答案 —— 会让后面的学习有内在动力。

Stage 2 · 系统学习

单变量 → 多变量

Single → Multi-Variable Calculus

机器学习只关心多变量。真实模型的参数都是成千上万维的。从梯度、Jacobian、Hessian 开始,是跨进 ML 数学的第一道门。

偏导数梯度 Jacobian Hessian 拉格朗日乘数多重积分

课程 · MIT单变量

MIT 18.01
Single Variable Calculus

MIT OCW · 完整视频 + 讲义 + 习题

MIT 经典的单变量课。如果觉得 Khan 太浅,直接跳到这里开始。

★ 课程 · MIT多变量 · 核心

MIT 18.02
Multivariable Calculus

Denis Auroux · MIT OCW

机器学习之前必过的一关。梯度、方向导数、拉格朗日乘数 —— 每一个概念都直接对应后续 ML 里的工具。

书 · 教材免费 PDF

Calculus · Strang

Gilbert Strang · 第 3 版 · MIT Press

Strang 写的微积分教材,单+多变量一本到底。跟他的线代一样,叙述亲切。

书 · 严格路线经典

Calculus · Spivak

Michael Spivak · 第 4 版

如果你想"真的"懂微积分,Spivak 是公认最好的入门书。严格、优雅、挑战人。

网站 · 笔记库免费

Paul's Online
Math Notes

Paul Dawkins · Lamar University

自学微积分最好用的速查笔记。任何具体知识点卡住,打开搜一下都能找到干净的讲解。

Stage 3 · 面向机器学习

梯度,链式法则,反向传播

Calculus for ML · Gradients & Backprop

从数学到神经网络的关键一跳。神经网络的训练 = 用链式法则计算梯度 + 用梯度下降更新参数。这一阶段专门讲清楚这条链。

梯度下降链式法则反向传播自动微分凸性

课程 · 专项★ 入门友好

Mathematics for ML:
Multivariate Calculus

Imperial College London · Coursera

从"斜率"一直讲到神经网络里的梯度,5 周课。比 MIT 18.02 轻松,但专门面向 ML。

视频 · 链式法则★ 必看

Neural Networks
by 3Blue1Brown

Grant Sanderson · 神经网络系列

其中的反向传播三集,是解释链式法则如何变成神经网络训练过程的最好材料。

书 · 章节免费在线

Deep Learning Book
Ch. 4 & 6

Goodfellow, Bengio, Courville

Chapter 4 讲数值计算,Chapter 6 讲反向传播。读这两章等于省半本书的时间。

讲义 · Stanford免费

CS231n · Backprop
Lecture Notes

Andrej Karpathy · Stanford

Karpathy 亲自写的反向传播讲义。把 backprop 讲成"局部梯度相乘"这件事,从此再也不会忘。

讲义 · Toronto免费

CSC321 · Backprop
Notes

Roger Grosse · University of Toronto

Toronto 的神经网络课讲义,以计算图为核心展开,补充 Karpathy 版。

Stage 4 · 进阶方向

优化的全貌

Optimization · The Big Picture

微积分在 ML 里的终极形态是优化。凸优化、随机梯度、自适应方法、二阶方法 —— 这里每一个方向都是 AI 的核心引擎。

凸优化 SGD / Adam 二阶方法变分法

★ 书 · 优化圣经免费 PDF

Convex Optimization

Stephen Boyd, Lieven Vandenberghe · Cambridge

ML 每一篇理论论文背后都站着这本书。配套 Stanford EE364A 视频课也在 YouTube 公开。

视频 · 配套Stanford

EE364A · Lectures

Stephen Boyd · YouTube 全套

Boyd 亲自讲 Convex Optimization 的全部视频。

书 · 教程arXiv · 免费

Optimization for
Deep Learning

Nicolas Le Roux et al.

现代深度学习的优化方法综述 —— Adam、LAMB、Adafactor 等优化器是怎么来的,为什么有效。

书 · 免费草稿作者主页

Optimization Methods for Large-Scale ML

Bottou, Curtis, Nocedal

大规模 ML 优化的权威综述。SGD 为什么在非凸世界也能工作 —— 这本书给出了最完整的答案。

几乎每一个学习算法,本质上都在做一件事 —— 定义一个损失函数,然后沿着它的梯度往下走。

— Yann LeCun · Meta AI

III

Track III · Probability & Statistics

第三条路 · 不确定性的代数

概率是 AI 理解世界的方式。模型的输出是概率分布,损失函数是负对数似然, 扩散模型、VAE、贝叶斯推断 —— 全都基于概率。从直觉,到贝叶斯,到信息论,到图模型。

Stage 1 · 建立直觉

用眼睛看见概率

Visual First · Seeing Uncertainty

概率是最容易"误以为自己懂了"的学科。用交互可视化建立直觉, 让你真正理解期望、方差、贝叶斯定理到底在说什么。

样本空间条件概率贝叶斯定理随机变量分布

网站 · 交互可视化★ 起点

Seeing Theory

Brown University · Daniel Kunin

最美的概率统计交互教材。拖动滑块,分布立刻变化,用动画展示大数定律、中心极限定理。看一小时等于读半本书。

视频 · 基础配合练习

Khan Academy
Statistics & Probability

Salman Khan · 免费

最系统的入门路线。从计数原理一路讲到假设检验,含完整练习系统。

视频 · 专题3B1B

3Blue1Brown
Probability videos

Grant Sanderson · 贝叶斯、二项、正态

3B1B 的贝叶斯定理、二项分布、正态分布几集,是概率直觉最高密度的内容。

书 · 入门教材免费 PDF

OpenIntro Statistics

Diez, Çetinkaya-Rundel, Barr · 第 4 版

最友好的免费统计学入门。每章配真实数据集,用 R 做练习,不挑数学背景。

Stage 2 · 系统学习

真正懂概率论

Rigorous Probability Theory

这是整个数学三部曲中最值得投入时间的一阶段。 概率论直觉上容易错,不系统学会在以后任何 ML 任务里都出问题。

联合/边际/条件分布期望 · 方差大数定律中心极限定理马尔可夫链

★ 课程 · 哈佛THE GOLD STANDARD

Harvard Stat 110 · Introduction to Probability

Joe Blitzstein · 34 Lectures · YouTube + edX · 全免费

学概率就选这门课。Blitzstein 是顶级老师,讲课充满洞察 —— 他让你看到每个定理背后的"故事"。配套教材免费在 probabilitybook.net。

书 · 配套教材免费完整版

Introduction to
Probability

Blitzstein & Hwang · 第 2 版 · CRC Press

Stat 110 的官方教材。官网提供完整免费 PDF。每章配大量"故事证明"式的推导。

课程 · MIT另一个选择

MIT 6.041x
Introduction to Probability

John Tsitsiklis · MIT OCW

如果喜欢更工程风格的讲法,MIT Tsitsiklis 这门课是另一个顶级选择。教材是 Bertsekas 经典。

Stage 3 · 面向机器学习

贝叶斯 · 推断 · 信息

Bayesian Thinking for ML

机器学习的一大半,就是换了名字的贝叶斯推断。 最大似然 = 给定模型拟合数据;贝叶斯 = 给定数据更新对模型的信念。这一阶段把概率接入到 ML 的语言里。

最大似然 MAP 贝叶斯推断信息熵 / KL 散度指数族

★ 书 · 权威教材免费 PDF

Probabilistic ML
An Introduction

Kevin P. Murphy · MIT Press · 2022

从概率视角重写整个机器学习。比经典的 Bishop 新很多,覆盖现代 ML 全貌。

★ 书 · 信息论免费

Information Theory,
Inference, and Learning

David MacKay · Cambridge

读完你会知道为什么交叉熵是默认的损失函数、为什么最大似然等价于最小 KL。每一章都是神来之笔。

书 + 课 · 贝叶斯配套视频

Statistical
Rethinking

Richard McElreath · 第 2 版

全世界评价最好的贝叶斯入门。作者 YouTube 上有完整视频课。从因果思维开始讲概率。

课程 · DLAI入门友好

Math for ML:
Probability & Statistics

DeepLearning.AI · Luis Serrano

Andrew Ng 团队出品的专项课,专门面向 ML 学习者,讲 MLE、MAP、置信区间。

书 · 新教材Springer · 2024

Probability & Statistics
for ML

Charu C. Aggarwal · 2024

把概率、统计直接按 ML 视角重组。200+ 实例,专为 ML 学习者写。

Stage 4 · 进阶方向

图模型 · 采样 · 因果

Graphical Models · MCMC · Causality

现代 AI 的概率前沿。贝叶斯网络、MCMC、变分推断、因果推断 —— 扩散模型、大模型微调、因果 AI 都依赖这一层。

概率图模型 MCMC 变分推断因果推断

★ 书 · 高阶主题免费

Probabilistic ML
Advanced Topics

Kevin P. Murphy · Vol. 2 · 2023

第二卷覆盖深度生成模型、GNN、强化学习、因果推断 —— 几乎所有当下的 AI 前沿。

书 · 经典MIT Press

Probabilistic Graphical
Models

Koller, Friedman · 2009

概率图模型的百科全书。Coursera 上有 Koller 亲自讲的配套课。

书 · 贝叶斯圣经免费第 3 版

Bayesian Data Analysis

Gelman et al. · 第 3 版

Gelman 的 BDA3,贝叶斯建模的权威工具书。

书 · 因果Pearl

Causality

Judea Pearl · 第 2 版

因果推断的奠基著作。Pearl 是 2011 年图灵奖得主,本书重塑了因果在 AI 里的意义。

书 · 统计学习免费

Elements of
Statistical Learning

Hastie, Tibshirani, Friedman

从"能调参"走到"懂原理"的必经之路。数学门槛不低,但每章都改变看问题的方式。

机器学习,本质上是一种认识论 —— 它告诉我们,在有限的数据里,应该如何形成合理的信念。

— David MacKay · Cambridge

∞

Final Chapter · Convergence

三条路汇合在一起

现代 AI 是三种数学的合奏。Transformer = 线代(注意力矩阵) + 微积分(反向传播) + 概率(softmax 输出)。下面这些书把三条路重新编织起来,直接面对 AI 的当下与前沿。

Convergence · 三流合一

从数学到 AI

Integrated · Research-Ready

不要急着读完每一本。到了这个阶段,选方向比读完书重要。下面是 2024-2026 年最新的几本综合性资源 + 几条前沿路径的入口。

Transformer 数学 Diffusion Models Geometric DL RLHF Scaling Laws

★ 书 · 三合一教材THE ONE BOOK TO START

Mathematics for Machine Learning

Deisenroth, Faisal, Ong · Cambridge · 2020 · 免费 PDF

把 ML 需要的所有数学 —— 线代、微积分、概率、优化 —— 整合进一本书。前半讲数学,后半用数学拆 ML 算法。如果不知道从哪本书开始,就是它。

★ 书 · 深度学习圣经免费在线

Deep Learning

Goodfellow, Bengio, Courville · MIT Press

Part I 是深度学习所需数学的全景。Part II 覆盖 CNN、RNN、自编码器、生成模型。虽然新模型层出不穷,但基础理论在这里。

★ 书 · 实战教材免费 · 含代码

Dive into Deep Learning

Zhang, Lipton, Li, Smola

李沐团队,每章三套代码 (PyTorch / MXNet / TF)。附录有一整章"深度学习需要的数学",是三条主线的完美总结。

书 · 前沿理论arXiv · 2026

Mathematical Theory
of Deep Learning

Petersen, Zech · v4 · 2026.01

用近似、优化、统计学习三大支柱构建深度学习的完整数学框架。最新版本 2026 年 1 月更新。

★ 视频 · 动手实现KARPATHY

Neural Networks
Zero to Hero

Andrej Karpathy · 从零手搓 GPT

OpenAI 前研究员亲自带你从 0 行代码写出一个 GPT。看完之后,三条数学主线会在脑中合为一体。

书 + 课 · 新范式免费

Geometric
Deep Learning

Bronstein, Bruna, Cohen, Veličković

用对称性和几何重新组织 DL —— CNN、GNN、Transformer 是同一个框架的特例。

书 · 强化学习圣经免费

Reinforcement Learning
An Introduction

Sutton & Barto · 第 2 版

从 MDP 一路讲到策略梯度、actor-critic。想懂 ChatGPT 的 RLHF,绕不开这本书。

资源 · 研究工具每日更新

arXiv cs.LG / cs.CL / stat.ML

arxiv.org · Papers with Code · Hugging Face

§ 终 · A Parallel Schedule

三线并行的学习时间线

Linear Algebra

Stage 1

建立直觉

1 – 2 mo · 3B1B + Khan

Stage 2

系统基础

3 – 4 mo · MIT 18.06

Stage 3

面向 ML

2 – 3 mo · MIT 18.065

Stage 4

矩阵微积分

1 – 2 mo · MIT 18.S096

Calculus

Stage 1

建立直觉

1 – 2 mo · 3B1B + OpenStax

Stage 2

单 → 多变量

3 – 4 mo · MIT 18.01+18.02

Stage 3

梯度 · 反传

1 – 2 mo · Coursera + CS231n

Stage 4

优化进阶

2 – 3 mo · Boyd Convex Opt

Probability

Stage 1

建立直觉

1 mo · Seeing Theory + Khan

Stage 2

系统概率论

3 – 4 mo · Harvard Stat 110

Stage 3

贝叶斯 · 信息

2 – 3 mo · Murphy PML + MacKay

Stage 4

图模型 · 因果

2 – 4 mo · 选方向深入

Convergence

Integrated

三流合一 · 手搓 GPT · 读论文 · 选方向

持续 · 从第 3 阶段开始就可以平行启动

矩阵, 变化, 与 不确定 ——

三门语言,共同描述一个世界。

线性代数

微积分

概率统计

第一条路 · 矩阵之上的世界

先把矩阵,看见

打牢地基

线性代数 × 数据

矩阵微积分 与 数值

第二条路 · 变化的语言

重新发现微积分

单变量 → 多变量

梯度,链式法则,反向传播

优化的全貌

第三条路 · 不确定性的代数

用眼睛看见概率

真正懂概率论

贝叶斯 · 推断 · 信息

图模型 · 采样 · 因果

三条路汇合在一起

从数学到 AI

三线并行的学习时间线

建立直觉

系统基础

面向 ML

矩阵微积分

建立直觉

单 → 多变量

梯度 · 反传

优化进阶

建立直觉

系统概率论

贝叶斯 · 信息

图模型 · 因果

三流合一 · 手搓 GPT · 读论文 · 选方向

矩阵,
变化, 与
不确定 ——

矩阵微积分与数值