Vol. IV · The Graduate Edition
数学 → AI 研究
Advanced · 进阶 only
A Graduate Bibliography · 研究者的书架

不是入门。
是 AI 论文背后
真正在读的书。

这份书单面向已经掌握本科线代、微积分、概率论的学习者。 收录的每一本都是研究生级别或以上—— Bhatia 的矩阵分析、Vershynin 的高维概率、Boyd 的凸优化、Villani 的最优传输、 Wainwright 的高维统计。读懂这些书,你就站在了 AI 理论的研究前线。

⚠ 阅读门槛提示——这一卷默认你已经读过:Strang 的线代 / Spivak 或 Apostol 的微积分 / Blitzstein 的概率论。 如果还没达到这个基础,强烈建议先看前面的入门书单,不要跳级,否则会被难度劝退。
§ 进入本卷所需的最低基础

Expected baseline

i.

本科线代

SVD、特征值、向量空间、内积空间能自由使用。

ii.

实分析基础

ε-δ、Lebesgue 测度、一致收敛能看懂证明。

iii.

本科概率

联合分布、条件期望、大数定律、CLT。

iv.

数学成熟度

能读并写出严格证明,习惯抽象定义。

I
Track I · Advanced Linear Algebra & Matrix Analysis

第一卷 · 高阶线代
与矩阵论

本科线代讲的是"有限维向量空间"。研究生线代则进入模、范畴、张量积;矩阵论则把矩阵当成算子,研究它们的不等式、扰动、谱结构。 随机矩阵理论和数值线代则是 AI 训练算法(比如随机 SVD、Lanczos)真正依赖的工具。
Jordan 标准型
张量代数
矩阵不等式
随机矩阵
谱理论
算子范数
I.Tier 1 · Graduate Linear Algebra

研究生线性代数

从向量空间走向模、张量、范畴。这一层的书面向数学系研究生,但对 AI 理论(特别是几何深度学习)是必需的。
先修:Axler 或 Friedberg 级别的线代;习惯抽象证明。
01
★ 研究生教材Springer GTM 135
Advanced Linear Algebra
Steven Roman · 第 3 版
2008 · Springer · 522 pages
研究生线代最常用的一本。覆盖向量空间、模、内积空间、张量积、Hilbert 空间、仿射几何,以及第 2 版加入的 QR、SVD、伪逆。写得严格但不过度抽象。
读完它你会从"会算矩阵"变成"会把矩阵看作抽象算子"。
02
经典历久弥新
Linear Algebra
Kenneth Hoffman · Ray Kunze · 第 2 版
1971 · Prentice Hall · 407 pages
半个世纪以来的研究生经典。严格处理 Jordan 标准型、双线性型、谱定理,比任何现代教材都深入。很多老派数学家把它当做"真正的线代圣经"。
Axler 避开的行列式和 Jordan 型,在这里才讲透。
03
Halmos · 经典Springer
Finite-Dimensional
Vector Spaces
Paul R. Halmos
1958 · Springer UTM · 200 pages
二十世纪的大师之作。薄薄两百页,用泛函分析的语言讲有限维代数 —— 这是算子理论和量子力学的入门桥梁。
Halmos 的风格会塑造你一生的"数学品味"。
04
Serge LangGTM 142
Algebra (Linear Part)
Serge Lang · 第 3 版修订版
2002 · Springer · 914 pages
Lang 的整本《Algebra》。其中线代相关章节(模、张量、二次型、特征理论)从现代代数视角重写,是通向表示论、代数几何的通道。
想懂张量为什么在深度学习里是"自然的对象",从这里开始。
05
应用线代工程师视角
Linear Algebra
Well Solved
Peter D. Lax
2007 · Wiley · 第 2 版
Abel 奖得主 Lax 写的线代。数学密度极高,但始终与应用(特别是 PDE 和数值计算)保持联系。特别值得看的是谱理论、酉算子、凸性那几章。
大师视角。读 Lax 是欣赏数学本身。
I.Tier 2 · Matrix Analysis

矩阵分析

把矩阵视作算子来研究,不再只是一堆数字。矩阵不等式、扰动理论、酉不变范数 —— 这些是证明算法收敛性、泛化界的必备工具。
先修:Tier 1 一本,外加一些泛函分析直觉。
06
★ 矩阵不等式圣经Bhatia · GTM 169
Matrix Analysis
Rajendra Bhatia
1997 · Springer GTM 169 · 347 pages
把矩阵分析提升到一门独立学科的里程碑之作。覆盖 majorization 理论、特征值变分原理、算子单调函数、矩阵函数扰动、矩阵不等式。这些工具在 ML 理论(尤其是非凸优化收敛证明)里反复出现。
AI 论文里看到 Weyl/Lidskii 不等式不知道怎么推?这本书就是答案。
07
权威参考Horn & Johnson
Matrix Analysis
Roger A. Horn · Charles R. Johnson · 第 2 版
2013 · Cambridge · 662 pages
矩阵论的百科全书。每一位数学背景的 ML 研究者都有这本书。谱定理、CS 分解、Schur 补、场理论 —— 遇到具体技术问题就翻,基本都能找到答案。
不是一本要读完的书,是一本放在手边用十年的书。
08
续集Horn & Johnson II
Topics in Matrix Analysis
Roger A. Horn · Charles R. Johnson
1994 / 重印 · Cambridge · 607 pages
Horn & Johnson 的第二卷。讲数值域、Kronecker 积、Hadamard 积、矩阵方程、正定矩阵的深入理论。对张量网络和 deep learning 里的矩阵技巧极有帮助。
第 1 卷搞不定的技术,第 2 卷基本能找到工具。
09
正定矩阵专题Bhatia II
Positive Definite Matrices
Rajendra Bhatia
2006 · Princeton · 254 pages
Bhatia 的姊妹篇。专门讲正定矩阵 —— 这在协方差估计、Gaussian 过程、核方法、Fisher 信息矩阵里是核心对象。几何角度极深入。
对协方差矩阵几何结构的深刻理解,都在这本书里。
I.Tier 3 · Numerical & Random Matrices

数值线代 & 随机矩阵

大模型训练时代的必修。随机矩阵理论是理解神经网络宽度、特征值分布、谱初始化的关键工具;数值线代告诉你稀疏求解、Krylov 方法、随机 SVD 怎么稳定地跑。
先修:Tier 2 中至少一本 + 实分析。
10
★ 随机矩阵 · Fields 奖得主Terence Tao
Topics in Random Matrix Theory
Terence Tao · AMS Graduate Studies 132
2012 · AMS · 282 pages
Tao 的随机矩阵入门。覆盖 Wigner 半圆律、Marchenko-Pastur、自由概率、最大特征值的 Tracy-Widom 分布。现代神经网络训练动力学的理论分析(NTK、lazy training、mean field)几乎都建立在这里。
要读懂 2020 年以来的 DL 理论论文,这本书是起点。
11
数值线代经典Trefethen · Bau
Numerical Linear Algebra
Lloyd N. Trefethen · David Bau III
1997 · SIAM · 361 pages
数值线代领域公认最好的一本。QR、SVD、Krylov 方法、特征值迭代 —— 讲得比任何教材都优雅。大模型训练里的矩阵求解背后,基本是这本书里的算法。
读 Trefethen 你会爱上数值计算的美感。
12
RMT 权威Anderson-Guionnet-Zeitouni
An Introduction to
Random Matrices
Greg W. Anderson · Alice Guionnet · Ofer Zeitouni
2010 · Cambridge · 507 pages
RMT 的经典权威教材。比 Tao 的书更系统完整,覆盖 β 系综、自由概率、重尾分布。做随机矩阵研究必读。
Tao 的书是入门,AGZ 是进入研究的标准。
13
圣经 · 工程参考Golub & Van Loan
Matrix Computations
Gene H. Golub · Charles F. Van Loan · 第 4 版
2013 · Johns Hopkins · 756 pages
矩阵计算的"大辞典"。每一个数值算法的稳定性分析、运算量计算、实现细节都在这里。LAPACK、cuBLAS、BLAS 的设计蓝本。对想写高性能训练代码的人是必备。
每个工业级数值算法背后都有 Golub。

矩阵分析的精髓,在于学会把一个矩阵不等式看成一个 几何事实

— Rajendra Bhatia · Indian Statistical Institute
II
Track II · Analysis, Functional Analysis & Advanced Optimization

第二卷 · 分析
与凸优化

高阶"微积分"其实已经不是微积分。它是实分析、泛函分析、凸分析、变分法。 这些是证明深度学习收敛性、泛化性、采样算法正确性的语言。 最优传输作为新兴方向,连接了概率、几何与 AI。
实分析
泛函分析
凸分析
最优传输
变分法
Banach/Hilbert 空间
II.Tier 1 · Real & Functional Analysis

实 · 泛函分析

深度学习理论所有"定理"都建立在实分析和泛函分析之上。收敛、连续、紧性、Banach 空间 —— 没有这些,任何现代 ML 理论论文都读不懂。
先修:Spivak 或 Rudin PMA(小红本)级别的单变量分析。
14
★ 经典 · Rudin 大红本McGraw-Hill
Real & Complex
Analysis
Walter Rudin · 第 3 版
1987 · McGraw-Hill · 416 pages
实分析研究生的标准教材。Lebesgue 测度、Lp 空间、Radon-Nikodym、Fourier 分析、Hilbert 空间 —— 每章都是精雕细琢。风格极其简洁,读起来像一场智力锻炼。
读完大红本你就具备了真正意义上的"分析家直觉"。
15
★ 泛函分析Brezis · 新经典
Functional Analysis, Sobolev Spaces and PDEs
Haïm Brezis
2010 · Springer Universitext · 600 pages
泛函分析现代最好的一本。Banach/Hilbert 空间、紧算子、谱理论、Sobolev 空间、弱收敛。对最优传输、扩散模型、PINN 的理论分析都是基础。
读完 Brezis,你能看懂任何"无穷维"的论文语言。
16
实分析参考Folland
Real Analysis
Gerald B. Folland · 第 2 版
1999 · Wiley · 386 pages
比 Rudin 更详细,解释更多。多数 AI 研究者把它当做 Rudin 的备用参考书。测度、积分、Lp 空间、Fourier、概率视角一应俱全。
Rudin 跳过的步骤,在 Folland 里都有。
17
Tao · 分析三卷极友好
Analysis I–III
Terence Tao
2006–2016 · Springer/TRIM
Tao 从 UCLA 本科生课起家的分析教材三卷。一步一步重建实分析 —— 从自然数开始。读起来像有老师陪你推演。适合自学者。
如果 Rudin 太硬,就从 Tao 开始。
18
经典 · Reed-Simon物理学家视角
Functional Analysis
Michael Reed · Barry Simon · Vol. I
1980 · Academic Press · 400 pages
四卷本 "Methods of Modern Mathematical Physics" 的第一卷。从谱理论到无界算子,写得非常直接。对量子相关 AI 或神经切核场理论有帮助。
量子启发 ML(如量子神经网络)的数学基础。
II.Tier 2 · Convex & Non-Convex Optimization

非凸优化

超越 Boyd 入门那本。凸分析、Nesterov 的加速方法、分布鲁棒优化、非凸收敛理论 —— 都在这里。做理论 ML 研究绕不开。
先修:Boyd 凸优化已读 + 实分析基础。
19
★ 凸分析圣经Rockafellar
Convex Analysis
R. Tyrrell Rockafellar
1970 · Princeton · 472 pages
凸分析学科的定义之作。凸集、凸函数、对偶、subgradient 的所有理论都建立在这本书里。Boyd 是"应用工程师版凸优化",Rockafellar 才是"真正的数学"。
现代优化理论的每一个结果都在引用它。
20
★ Nesterov · 现代加速方法之父
Lectures on Convex Optimization
Yurii Nesterov · 第 2 版
2018 · Springer · 589 pages
Nesterov 亲自写的教材。加速梯度法、interior-point、随机优化、复杂度分析 —— Adam、Nesterov momentum 这些 ML 优化器的理论基础在这里。
Adam 背后的数学,来自 Nesterov 的思想。
21
现代方法Proximal / Splitting
Proximal Algorithms
Neal Parikh · Stephen Boyd
2014 · Foundations and Trends · 免费 PDF
proximal 方法是现代大规模优化的核心 —— ADMM、FISTA、splitting,都是 proximal 操作的变种。深度学习里的 L1 正则、鲁棒优化都离不开。
压缩感知、稀疏学习论文里几乎每一行都在用。
22
非凸优化综述Jain · Kar
Non-Convex Optimization for ML
Prateek Jain · Purushottam Kar
2017 · Foundations and Trends · 免费
为数不多的非凸优化系统性综述。覆盖投影梯度、交替最小化、EM、矩阵分解。深度学习损失曲面为什么"能被 SGD 找到全局最优",在这里能找到证据。
SGD 在非凸世界依然能工作,有数学原因的。
II.Tier 3 · Optimal Transport

最优传输

近年 AI 里最热的数学方向之一。Wasserstein 距离、Sinkhorn 算法、流匹配 —— 扩散模型、GAN、生成建模都依赖这一层。
先修:实分析 + 概率论。

凸分析与最优传输的融合,将会是下一代机器学习的基础语言

— Cédric Villani · Fields Medalist
III
Track III · Measure-Theoretic & High-Dimensional Probability

第三卷 · 测度论
与高维概率

现代概率论建立在测度论之上。Durrett、Billingsley、Williams 是研究生概率的三座大山; Vershynin、Wainwright 把这一套搬进了数据科学 —— 高维集中、随机矩阵、经验过程 —— 全部都是理解深度学习泛化性的直接工具。
测度论概率
鞅论
Brown 运动
集中不等式
高维几何
经验过程
随机过程
III.Tier 1 · Measure-Theoretic Probability

测度论概率

严格的概率论必须建立在测度论上。条件期望、鞅、Markov 过程的严格处理 —— 不经过这一关,就无法真正理解 SDE、扩散过程、RL 的理论。
先修:Rudin 大红本 或 Folland,掌握 Lebesgue 测度。
III.Tier 2 · High-Dim Probability · Concentration

高维概率与集中现象

这一层是 AI 理论的核心工具。尾界、sub-Gaussian、Johnson-Lindenstrauss、Rademacher 复杂度 —— 每一个证明神经网络泛化性、样本复杂度、MCMC 收敛的论文都在用。
先修:Tier 1 一本 + 本科线代扎实。
30
★★ 必读 · 这卷的核心Vershynin · Cambridge · 免费预览
High-Dimensional Probability
Roman Vershynin · 2026 第 2 版
2018 / 2026 · Cambridge Series 47 · 免费 PDF
2019 年 PROSE Awards 数学类获奖书。Terence Tao 评价"这是这个领域期待已久的教科书"。集中不等式、覆盖数、随机矩阵、嵌入理论 —— AI 理论研究者人人一本。作者主页提供 2026 年新版免费 PDF。
如果这一卷你只读一本,就是它。
31
★★ 必读Wainwright · Berkeley
High-Dimensional Statistics: A Non-Asymptotic Viewpoint
Martin J. Wainwright · Cambridge Series 48
2019 · Cambridge · 552 pages
Berkeley 的 Wainwright 用一本书整理完了高维统计的全部工具:尾界、集中、empirical process、sparse 估计、随机矩阵。Larry Wasserman 评价"这将是该领域未来多年的标准参考"。
读懂 Lasso、矩阵补全、Transformer 泛化理论的必经之路。
32
集中经典Boucheron et al.
Concentration Inequalities: A Nonasymptotic Theory
Boucheron · Lugosi · Massart
2013 · Oxford · 496 pages
集中不等式的百科。从 Hoeffding 到 Talagrand 不等式,每一个现代集中结果的证明都在这里。做理论 ML 避不开。
Talagrand 不等式 —— 统计学习理论的顶点。
33
经验过程van der Vaart · Wellner
Weak Convergence and Empirical Processes
van der Vaart · Wellner
1996 · Springer · 508 pages
经验过程理论的标准参考。VC 维、bracketing 熵、uniform laws —— 统计学习理论的所有尾界都从这里推出。Wainwright 的书也在大量引用它。
泛化界证明的"上游源头"。
III.Tier 3 · Stochastic Processes & Analysis

随机过程 & 随机分析

扩散模型、score matching、SDE-based 生成模型 —— 这些 AI 前沿直接依赖随机微分方程Itô 积分
先修:测度论概率(Durrett) + 鞅论。

高维概率里的 集中现象 —— 即大多数高维体积分布在细壳上 —— 是整个机器学习理论的物理直觉。

— Roman Vershynin · UC Irvine
IV
Track IV · AI Theory Frontier

第四卷 · AI 理论
前线

这些书假设你已经读完了前三卷。它们不讲"什么是线代/概率/优化",而是直接进入 神经网络的数学分析深度学习理论现代统计学习。ICML / NeurIPS / COLT 论文的基础参考。
神经正切核
Mean Field
统计学习理论
信息几何
采样算法
泛化界
IV.The Frontier

前线书单

最后一层。每一本都是 研究者级别的深度学习理论专书,读时需要前三卷所有工具就位。
先修:前三卷都至少读完 Tier 1,有能力写证明。
37
★ DL 理论综述arXiv · 2026.01 更新
Mathematical Theory of Deep Learning
Philipp Petersen · Jakob Zech
2024 / v4: 2026.01 · arXiv:2407.18384
近似理论、优化理论、统计学习理论三大支柱构建的 DL 完整数学框架。目前理解"神经网络为什么能工作"最系统的一本书,且仍在更新。
AI 理论的当代标准教材。
38
AMS 研究生教材2025 新书
Mathematical Foundations of Deep Learning
Spiliopoulos · Sowers · Sirignano
2025 · AMS GSM 252 · 含代码
新出版的 AMS 研究生教材。反向传播理论、SGD 收敛性、neural ODE、mean field 极限、分布式训练 —— 每章都是一篇独立专题论文的深度。
最新、最完整的深度学习数学教材。
39
★ 统计学习理论免费 PDF
Understanding Machine Learning
Shai Shalev-Shwartz · Shai Ben-David
2014 · Cambridge · 作者提供免费 PDF
统计学习理论的标准研究生教材。PAC 学习、VC 维、Rademacher 复杂度、boosting、SVM、在线学习、多任务学习。数学严格而自包含。
"为什么深度学习能泛化"这一问题的经典工具都在这里。
40
NYU 教材Mohri et al.
Foundations of Machine Learning
Mehryar Mohri · Rostamizadeh · Talwalkar · 第 2 版
2018 · MIT Press · 504 pages
NYU 博士课程教材。和 Shalev-Shwartz 风格互补 —— Mohri 更偏理论界与算法分析的结合,讲 Rademacher 界特别清楚。
两本统计学习理论书,选一个对胃口的。
41
信息几何Amari · 权威
Information Geometry and Its Applications
Shun-ichi Amari
2016 · Springer · 374 pages
Amari 是信息几何创始人。Fisher 信息矩阵、自然梯度、指数族的几何结构 —— 现代 ML 里的 natural gradient、EM、策略梯度都来自这里。
Natural gradient 不是"Adam 的亲戚",它有深刻的几何含义。
42
基础数学综合免费 PDF · Cornell
Foundations of Data Science
Avrim Blum · John Hopcroft · Ravindran Kannan
2020 · Cambridge · 免费 PDF
从高维几何到随机游走到谱方法,全部以"理论计算机科学视角"展开。算法分析和 ML 理论之间的最佳连接。
TCS 背景的 ML 研究者必读。
43
★ 神经网络物理视角Roberts · Yaida · arXiv
The Principles of Deep Learning Theory
Daniel A. Roberts · Sho Yaida · Boris Hanin
2022 · Cambridge · arXiv 免费 · 472 pages
从重整化群、有效场论(量子场论)的视角构建深度学习理论。Criticality、相变、无限宽极限。这本书是物理和 ML 的当代最深融合。
物理学背景的 AI 研究者最喜欢的一本书。
§ Directions · 按研究方向的重点书

三条研究方向的聚焦路径

Direction A

扩散模型 · 生成式 AI

  • Øksendal · SDE#34 · Itô 计算,DDPM 的语言
  • Peyré & Cuturi · Computational OT#23 · Wasserstein 距离
  • Santambrogio · OT for Applied Math#24 · 流匹配的几何
  • Villani · Optimal Transport#25 · 最深入的一层
  • Vershynin · High-Dim Prob#30 · 集中不等式
Direction B

大模型训练 · 优化理论

  • Rockafellar · Convex Analysis#19 · 凸分析底层
  • Nesterov · Lectures on Convex Opt#20 · 加速法理论
  • Jain & Kar · Non-Convex Opt for ML#22 · SGD 在非凸
  • Tao · Random Matrix Theory#10 · 宽网络分析
  • Golub & Van Loan · Matrix Computations#13 · 数值实现
Direction C

学习理论 · 泛化分析

  • Wainwright · High-Dim Stats#31 · 核心工具箱
  • Boucheron et al. · Concentration#32 · 所有尾界
  • van der Vaart & Wellner · Empirical Proc#33 · 上游理论
  • Shalev-Shwartz & Ben-David#39 · PAC 与 VC 维
  • Mohri et al. · Foundations of ML#40 · Rademacher 界