A Graduate Bibliography · 研究者的书架

不是入门。
是 AI 论文背后
真正在读的书。

这份书单面向已经掌握本科线代、微积分、概率论的学习者。收录的每一本都是研究生级别或以上—— Bhatia 的矩阵分析、Vershynin 的高维概率、Boyd 的凸优化、Villani 的最优传输、 Wainwright 的高维统计。读懂这些书,你就站在了 AI 理论的研究前线。

⚠ 阅读门槛提示——这一卷默认你已经读过:Strang 的线代 / Spivak 或 Apostol 的微积分 / Blitzstein 的概率论。如果还没达到这个基础,强烈建议先看前面的入门书单,不要跳级,否则会被难度劝退。

§ 进入本卷所需的最低基础

Expected baseline

本科线代

SVD、特征值、向量空间、内积空间能自由使用。

ii.

实分析基础

ε-δ、Lebesgue 测度、一致收敛能看懂证明。

iii.

本科概率

联合分布、条件期望、大数定律、CLT。

iv.

数学成熟度

能读并写出严格证明,习惯抽象定义。

Track I · Advanced Linear Algebra & Matrix Analysis

第一卷 · 高阶线代
与矩阵论

本科线代讲的是"有限维向量空间"。研究生线代则进入模、范畴、张量积;矩阵论则把矩阵当成算子,研究它们的不等式、扰动、谱结构。随机矩阵理论和数值线代则是 AI 训练算法(比如随机 SVD、Lanczos)真正依赖的工具。

Jordan 标准型

张量代数

矩阵不等式

随机矩阵

谱理论

算子范数

I.Tier 1 · Graduate Linear Algebra

研究生线性代数

从向量空间走向模、张量、范畴。这一层的书面向数学系研究生,但对 AI 理论(特别是几何深度学习)是必需的。

先修:Axler 或 Friedberg 级别的线代;习惯抽象证明。

★ 研究生教材Springer GTM 135

Advanced Linear Algebra

Steven Roman · 第 3 版

2008 · Springer · 522 pages

研究生线代最常用的一本。覆盖向量空间、模、内积空间、张量积、Hilbert 空间、仿射几何,以及第 2 版加入的 QR、SVD、伪逆。写得严格但不过度抽象。

读完它你会从"会算矩阵"变成"会把矩阵看作抽象算子"。

经典历久弥新

Linear Algebra

Kenneth Hoffman · Ray Kunze · 第 2 版

1971 · Prentice Hall · 407 pages

半个世纪以来的研究生经典。严格处理 Jordan 标准型、双线性型、谱定理,比任何现代教材都深入。很多老派数学家把它当做"真正的线代圣经"。

Axler 避开的行列式和 Jordan 型,在这里才讲透。

Halmos · 经典Springer

Finite-Dimensional
Vector Spaces

Paul R. Halmos

1958 · Springer UTM · 200 pages

二十世纪的大师之作。薄薄两百页,用泛函分析的语言讲有限维代数 —— 这是算子理论和量子力学的入门桥梁。

Halmos 的风格会塑造你一生的"数学品味"。

Serge LangGTM 142

Algebra (Linear Part)

Serge Lang · 第 3 版修订版

2002 · Springer · 914 pages

Lang 的整本《Algebra》。其中线代相关章节(模、张量、二次型、特征理论)从现代代数视角重写,是通向表示论、代数几何的通道。

想懂张量为什么在深度学习里是"自然的对象",从这里开始。

应用线代工程师视角

Linear Algebra
Well Solved

Peter D. Lax

2007 · Wiley · 第 2 版

Abel 奖得主 Lax 写的线代。数学密度极高,但始终与应用(特别是 PDE 和数值计算)保持联系。特别值得看的是谱理论、酉算子、凸性那几章。

大师视角。读 Lax 是欣赏数学本身。

I.Tier 2 · Matrix Analysis

矩阵分析

把矩阵视作算子来研究,不再只是一堆数字。矩阵不等式、扰动理论、酉不变范数 —— 这些是证明算法收敛性、泛化界的必备工具。

先修:Tier 1 一本,外加一些泛函分析直觉。

★ 矩阵不等式圣经Bhatia · GTM 169

Matrix Analysis

Rajendra Bhatia

1997 · Springer GTM 169 · 347 pages

把矩阵分析提升到一门独立学科的里程碑之作。覆盖 majorization 理论、特征值变分原理、算子单调函数、矩阵函数扰动、矩阵不等式。这些工具在 ML 理论(尤其是非凸优化收敛证明)里反复出现。

AI 论文里看到 Weyl/Lidskii 不等式不知道怎么推?这本书就是答案。

权威参考Horn & Johnson

Matrix Analysis

Roger A. Horn · Charles R. Johnson · 第 2 版

2013 · Cambridge · 662 pages

矩阵论的百科全书。每一位数学背景的 ML 研究者都有这本书。谱定理、CS 分解、Schur 补、场理论 —— 遇到具体技术问题就翻,基本都能找到答案。

不是一本要读完的书,是一本放在手边用十年的书。

续集Horn & Johnson II

Topics in Matrix Analysis

Roger A. Horn · Charles R. Johnson

1994 / 重印 · Cambridge · 607 pages

Horn & Johnson 的第二卷。讲数值域、Kronecker 积、Hadamard 积、矩阵方程、正定矩阵的深入理论。对张量网络和 deep learning 里的矩阵技巧极有帮助。

第 1 卷搞不定的技术,第 2 卷基本能找到工具。

正定矩阵专题Bhatia II

Positive Definite Matrices

Rajendra Bhatia

2006 · Princeton · 254 pages

Bhatia 的姊妹篇。专门讲正定矩阵 —— 这在协方差估计、Gaussian 过程、核方法、Fisher 信息矩阵里是核心对象。几何角度极深入。

对协方差矩阵几何结构的深刻理解,都在这本书里。

I.Tier 3 · Numerical & Random Matrices

数值线代 & 随机矩阵

大模型训练时代的必修。随机矩阵理论是理解神经网络宽度、特征值分布、谱初始化的关键工具;数值线代告诉你稀疏求解、Krylov 方法、随机 SVD 怎么稳定地跑。

先修:Tier 2 中至少一本 + 实分析。

★ 随机矩阵 · Fields 奖得主Terence Tao

Topics in Random Matrix Theory

Terence Tao · AMS Graduate Studies 132

2012 · AMS · 282 pages

Tao 的随机矩阵入门。覆盖 Wigner 半圆律、Marchenko-Pastur、自由概率、最大特征值的 Tracy-Widom 分布。现代神经网络训练动力学的理论分析(NTK、lazy training、mean field)几乎都建立在这里。

要读懂 2020 年以来的 DL 理论论文,这本书是起点。

数值线代经典Trefethen · Bau

Numerical Linear Algebra

Lloyd N. Trefethen · David Bau III

1997 · SIAM · 361 pages

数值线代领域公认最好的一本。QR、SVD、Krylov 方法、特征值迭代 —— 讲得比任何教材都优雅。大模型训练里的矩阵求解背后,基本是这本书里的算法。

读 Trefethen 你会爱上数值计算的美感。

RMT 权威Anderson-Guionnet-Zeitouni

An Introduction to
Random Matrices

Greg W. Anderson · Alice Guionnet · Ofer Zeitouni

2010 · Cambridge · 507 pages

RMT 的经典权威教材。比 Tao 的书更系统完整,覆盖 β 系综、自由概率、重尾分布。做随机矩阵研究必读。

Tao 的书是入门,AGZ 是进入研究的标准。

圣经 · 工程参考Golub & Van Loan

Matrix Computations

Gene H. Golub · Charles F. Van Loan · 第 4 版

2013 · Johns Hopkins · 756 pages

矩阵计算的"大辞典"。每一个数值算法的稳定性分析、运算量计算、实现细节都在这里。LAPACK、cuBLAS、BLAS 的设计蓝本。对想写高性能训练代码的人是必备。

每个工业级数值算法背后都有 Golub。

矩阵分析的精髓,在于学会把一个矩阵不等式看成一个 几何事实。

— Rajendra Bhatia · Indian Statistical Institute

Track II · Analysis, Functional Analysis & Advanced Optimization

第二卷 · 分析
与凸优化

高阶"微积分"其实已经不是微积分。它是实分析、泛函分析、凸分析、变分法。这些是证明深度学习收敛性、泛化性、采样算法正确性的语言。 最优传输作为新兴方向,连接了概率、几何与 AI。

实分析

泛函分析

凸分析

最优传输

变分法

Banach/Hilbert 空间

II.Tier 1 · Real & Functional Analysis

实 · 泛函分析

深度学习理论所有"定理"都建立在实分析和泛函分析之上。收敛、连续、紧性、Banach 空间 —— 没有这些,任何现代 ML 理论论文都读不懂。

先修:Spivak 或 Rudin PMA(小红本)级别的单变量分析。

★ 经典 · Rudin 大红本McGraw-Hill

Real & Complex
Analysis

Walter Rudin · 第 3 版

1987 · McGraw-Hill · 416 pages

实分析研究生的标准教材。Lebesgue 测度、Lp 空间、Radon-Nikodym、Fourier 分析、Hilbert 空间 —— 每章都是精雕细琢。风格极其简洁,读起来像一场智力锻炼。

读完大红本你就具备了真正意义上的"分析家直觉"。

★ 泛函分析Brezis · 新经典

Functional Analysis, Sobolev Spaces and PDEs

Haïm Brezis

2010 · Springer Universitext · 600 pages

泛函分析现代最好的一本。Banach/Hilbert 空间、紧算子、谱理论、Sobolev 空间、弱收敛。对最优传输、扩散模型、PINN 的理论分析都是基础。

读完 Brezis,你能看懂任何"无穷维"的论文语言。

实分析参考Folland

Real Analysis

Gerald B. Folland · 第 2 版

1999 · Wiley · 386 pages

Rudin 跳过的步骤,在 Folland 里都有。

Tao · 分析三卷极友好

Analysis I–III

Terence Tao

2006–2016 · Springer/TRIM

Tao 从 UCLA 本科生课起家的分析教材三卷。一步一步重建实分析 —— 从自然数开始。读起来像有老师陪你推演。适合自学者。

如果 Rudin 太硬,就从 Tao 开始。

经典 · Reed-Simon物理学家视角

Functional Analysis

Michael Reed · Barry Simon · Vol. I

1980 · Academic Press · 400 pages

四卷本 "Methods of Modern Mathematical Physics" 的第一卷。从谱理论到无界算子,写得非常直接。对量子相关 AI 或神经切核场理论有帮助。

量子启发 ML(如量子神经网络)的数学基础。

II.Tier 2 · Convex & Non-Convex Optimization

凸与非凸优化

超越 Boyd 入门那本。凸分析、Nesterov 的加速方法、分布鲁棒优化、非凸收敛理论 —— 都在这里。做理论 ML 研究绕不开。

先修:Boyd 凸优化已读 + 实分析基础。

★ 凸分析圣经Rockafellar

Convex Analysis

R. Tyrrell Rockafellar

1970 · Princeton · 472 pages

凸分析学科的定义之作。凸集、凸函数、对偶、subgradient 的所有理论都建立在这本书里。Boyd 是"应用工程师版凸优化",Rockafellar 才是"真正的数学"。

现代优化理论的每一个结果都在引用它。

★ Nesterov · 现代加速方法之父

Lectures on Convex Optimization

Yurii Nesterov · 第 2 版

2018 · Springer · 589 pages

Nesterov 亲自写的教材。加速梯度法、interior-point、随机优化、复杂度分析 —— Adam、Nesterov momentum 这些 ML 优化器的理论基础在这里。

Adam 背后的数学,来自 Nesterov 的思想。

现代方法Proximal / Splitting

Proximal Algorithms

Neal Parikh · Stephen Boyd

2014 · Foundations and Trends · 免费 PDF

proximal 方法是现代大规模优化的核心 —— ADMM、FISTA、splitting,都是 proximal 操作的变种。深度学习里的 L1 正则、鲁棒优化都离不开。

压缩感知、稀疏学习论文里几乎每一行都在用。

非凸优化综述Jain · Kar

Non-Convex Optimization for ML

Prateek Jain · Purushottam Kar

2017 · Foundations and Trends · 免费

为数不多的非凸优化系统性综述。覆盖投影梯度、交替最小化、EM、矩阵分解。深度学习损失曲面为什么"能被 SGD 找到全局最优",在这里能找到证据。

SGD 在非凸世界依然能工作,有数学原因的。

II.Tier 3 · Optimal Transport

最优传输

近年 AI 里最热的数学方向之一。Wasserstein 距离、Sinkhorn 算法、流匹配 —— 扩散模型、GAN、生成建模都依赖这一层。

先修:实分析 + 概率论。

★ 计算 OT 入门Peyré · Cuturi · 免费

Computational Optimal Transport

Gabriel Peyré · Marco Cuturi

2019 · Foundations and Trends · 免费 PDF

最优传输在数据科学里的应用。Sinkhorn、entropic regularization、Wasserstein GANs、重心问题。所有代码都开源在配套网站。

进入扩散模型和流匹配的最好起点。

教材级 OTSantambrogio

Optimal Transport for Applied Mathematicians

Filippo Santambrogio

2015 · Birkhäuser · 353 pages

OT 里最好的教材。数学严格但可读,覆盖动力学视角(Benamou-Brenier)、PDE 联系。对搞扩散模型或 score matching 的人极有价值。

流匹配、连续归一化流背后的几何都在这里。

Fields 奖得主巨著Villani

Optimal Transport: Old and New

Cédric Villani

2008 · Springer Grundlehren · 998 pages

Villani 因为这本书拿了 2014 年 Doob 奖。最优传输的"圣经",千页巨著。把 OT 连接到 Riemann 几何、Ricci 曲率、信息几何 —— 是 AI 数学未来十年最重要的思想源。

Grant Sanderson 曾说:"如果 AI 有一本圣经,这是它的候选之一。"

凸分析与最优传输的融合,将会是下一代机器学习的基础语言。

— Cédric Villani · Fields Medalist

III

Track III · Measure-Theoretic & High-Dimensional Probability

第三卷 · 测度论
与高维概率

现代概率论建立在测度论之上。Durrett、Billingsley、Williams 是研究生概率的三座大山; Vershynin、Wainwright 把这一套搬进了数据科学 —— 高维集中、随机矩阵、经验过程 —— 全部都是理解深度学习泛化性的直接工具。

测度论概率

鞅论

Brown 运动

集中不等式

高维几何

经验过程

随机过程

III.Tier 1 · Measure-Theoretic Probability

测度论概率

严格的概率论必须建立在测度论上。条件期望、鞅、Markov 过程的严格处理 —— 不经过这一关,就无法真正理解 SDE、扩散过程、RL 的理论。

先修:Rudin 大红本或 Folland,掌握 Lebesgue 测度。

★ 研究生标准Durrett · 免费 PDF

Probability: Theory and Examples

Rick Durrett · 第 5 版

2019 · Cambridge · 免费作者网盘

美国研究生概率论最常用教材之一。测度论基础、鞅、Markov 链、布朗运动一一展开。风格紧凑,每个例子都抓要害。作者 Duke 官网提供免费 PDF。

Berkeley、MIT、Stanford 的概率资格考都以它为基础。

★ 经典Billingsley · 35 周年版

Probability and Measure

Patrick Billingsley · Anniversary Edition

2012 · Wiley · 624 pages

另一个主流选择。把测度论和概率论交织讲 —— 概率问题引出测度论,测度论再反哺概率。写作风格极美,不少人觉得它是史上最优雅的概率教材。

Durrett 和 Billingsley,选一个对味的就行。

Williams · 清晰鞅路线

Probability with Martingales

David Williams

1991 · Cambridge · 265 pages

专门从鞅的角度讲概率。薄一点,读起来轻松一些。鞅是 RL、在线学习、stochastic approximation 的基本工具 —— 必学。

鞅理论是 RL 算法收敛证明的标准工具。

整合版Dudley

Real Analysis and Probability

R. M. Dudley

2002 · Cambridge · 555 pages

把实分析和概率论整合在一本书。特别值得读的是经验过程和 Donsker 定理那几章 —— 这是现代统计学习理论(VC 维、Rademacher 复杂度)的基石。

统计学习理论证明背后的分析工具都在这里。

III.Tier 2 · High-Dim Probability · Concentration

高维概率与集中现象

这一层是 AI 理论的核心工具。尾界、sub-Gaussian、Johnson-Lindenstrauss、Rademacher 复杂度 —— 每一个证明神经网络泛化性、样本复杂度、MCMC 收敛的论文都在用。

先修:Tier 1 一本 + 本科线代扎实。

★★ 必读 · 这卷的核心Vershynin · Cambridge · 免费预览

High-Dimensional Probability

Roman Vershynin · 2026 第 2 版

2018 / 2026 · Cambridge Series 47 · 免费 PDF

2019 年 PROSE Awards 数学类获奖书。Terence Tao 评价"这是这个领域期待已久的教科书"。集中不等式、覆盖数、随机矩阵、嵌入理论 —— AI 理论研究者人人一本。作者主页提供 2026 年新版免费 PDF。

如果这一卷你只读一本,就是它。

★★ 必读Wainwright · Berkeley

High-Dimensional Statistics: A Non-Asymptotic Viewpoint

Martin J. Wainwright · Cambridge Series 48

2019 · Cambridge · 552 pages

Berkeley 的 Wainwright 用一本书整理完了高维统计的全部工具:尾界、集中、empirical process、sparse 估计、随机矩阵。Larry Wasserman 评价"这将是该领域未来多年的标准参考"。

读懂 Lasso、矩阵补全、Transformer 泛化理论的必经之路。

集中经典Boucheron et al.

Concentration Inequalities: A Nonasymptotic Theory

Boucheron · Lugosi · Massart

2013 · Oxford · 496 pages

集中不等式的百科。从 Hoeffding 到 Talagrand 不等式,每一个现代集中结果的证明都在这里。做理论 ML 避不开。

Talagrand 不等式 —— 统计学习理论的顶点。

经验过程van der Vaart · Wellner

Weak Convergence and Empirical Processes

van der Vaart · Wellner

1996 · Springer · 508 pages

经验过程理论的标准参考。VC 维、bracketing 熵、uniform laws —— 统计学习理论的所有尾界都从这里推出。Wainwright 的书也在大量引用它。

泛化界证明的"上游源头"。

III.Tier 3 · Stochastic Processes & Analysis

随机过程 & 随机分析

扩散模型、score matching、SDE-based 生成模型 —— 这些 AI 前沿直接依赖随机微分方程和 Itô 积分。

先修:测度论概率(Durrett) + 鞅论。

★ SDE 入门首选Øksendal

Stochastic Differential Equations

Bernt Øksendal · 第 6 版

2003 · Springer · 379 pages

SDE 最友好的研究生入门教材。Itô 积分、Itô 公式、SDE 数值解、Feynman-Kac —— 这是扩散模型的直接数学基础。

扩散模型 (DDPM) 论文里 "reverse-time SDE" 背后的数学在这里。

权威参考Karatzas · Shreve

Brownian Motion and Stochastic Calculus

Ioannis Karatzas · Steven E. Shreve

1991 · Springer · 470 pages

随机分析的权威教材。Brown 运动、鞅、Itô、局部时间、扩散过程 —— 完整而严格。想做扩散生成建模的理论研究,要反复看的工具书。

金融、物理、AI 通用的随机分析语言。

Grundlehren 系列Revuz · Yor

Continuous Martingales and Brownian Motion

Daniel Revuz · Marc Yor · 第 3 版

2005 · Springer Grundlehren · 602 pages

随机分析的"高级字典"。鞅、Brownian motion、局部时、Markov 性质 —— 每一个技术结果都有完整证明。是做理论 SDE / 生成模型的人最终回头参考的书。

读完你可以看懂任何一篇关于扩散模型理论的论文。

高维概率里的 集中现象 —— 即大多数高维体积分布在细壳上 —— 是整个机器学习理论的物理直觉。

— Roman Vershynin · UC Irvine

Track IV · AI Theory Frontier

第四卷 · AI 理论
前线

这些书假设你已经读完了前三卷。它们不讲"什么是线代/概率/优化",而是直接进入 神经网络的数学分析、深度学习理论、现代统计学习。ICML / NeurIPS / COLT 论文的基础参考。

神经正切核

Mean Field

统计学习理论

信息几何

采样算法

泛化界

IV.The Frontier

前线书单

最后一层。每一本都是 研究者级别的深度学习理论专书,读时需要前三卷所有工具就位。

先修:前三卷都至少读完 Tier 1,有能力写证明。

★ DL 理论综述arXiv · 2026.01 更新

Mathematical Theory of Deep Learning

Philipp Petersen · Jakob Zech

2024 / v4: 2026.01 · arXiv:2407.18384

近似理论、优化理论、统计学习理论三大支柱构建的 DL 完整数学框架。目前理解"神经网络为什么能工作"最系统的一本书,且仍在更新。

AI 理论的当代标准教材。

AMS 研究生教材2025 新书

Mathematical Foundations of Deep Learning

Spiliopoulos · Sowers · Sirignano

2025 · AMS GSM 252 · 含代码

新出版的 AMS 研究生教材。反向传播理论、SGD 收敛性、neural ODE、mean field 极限、分布式训练 —— 每章都是一篇独立专题论文的深度。

最新、最完整的深度学习数学教材。

★ 统计学习理论免费 PDF

Understanding Machine Learning

Shai Shalev-Shwartz · Shai Ben-David

2014 · Cambridge · 作者提供免费 PDF

统计学习理论的标准研究生教材。PAC 学习、VC 维、Rademacher 复杂度、boosting、SVM、在线学习、多任务学习。数学严格而自包含。

"为什么深度学习能泛化"这一问题的经典工具都在这里。

NYU 教材Mohri et al.

Foundations of Machine Learning

Mehryar Mohri · Rostamizadeh · Talwalkar · 第 2 版

2018 · MIT Press · 504 pages

NYU 博士课程教材。和 Shalev-Shwartz 风格互补 —— Mohri 更偏理论界与算法分析的结合,讲 Rademacher 界特别清楚。

两本统计学习理论书,选一个对胃口的。

信息几何Amari · 权威

Information Geometry and Its Applications

Shun-ichi Amari

2016 · Springer · 374 pages

Amari 是信息几何创始人。Fisher 信息矩阵、自然梯度、指数族的几何结构 —— 现代 ML 里的 natural gradient、EM、策略梯度都来自这里。

Natural gradient 不是"Adam 的亲戚",它有深刻的几何含义。

基础数学综合免费 PDF · Cornell

Foundations of Data Science

Avrim Blum · John Hopcroft · Ravindran Kannan

2020 · Cambridge · 免费 PDF

从高维几何到随机游走到谱方法,全部以"理论计算机科学视角"展开。算法分析和 ML 理论之间的最佳连接。

TCS 背景的 ML 研究者必读。

★ 神经网络物理视角Roberts · Yaida · arXiv

The Principles of Deep Learning Theory

Daniel A. Roberts · Sho Yaida · Boris Hanin

2022 · Cambridge · arXiv 免费 · 472 pages

从重整化群、有效场论(量子场论)的视角构建深度学习理论。Criticality、相变、无限宽极限。这本书是物理和 ML 的当代最深融合。

物理学背景的 AI 研究者最喜欢的一本书。

§ Directions · 按研究方向的重点书

三条研究方向的聚焦路径

Direction A

扩散模型 · 生成式 AI

Øksendal · SDE#34 · Itô 计算,DDPM 的语言
Peyré & Cuturi · Computational OT#23 · Wasserstein 距离
Santambrogio · OT for Applied Math#24 · 流匹配的几何
Villani · Optimal Transport#25 · 最深入的一层
Vershynin · High-Dim Prob#30 · 集中不等式

Direction B

大模型训练 · 优化理论

Rockafellar · Convex Analysis#19 · 凸分析底层
Nesterov · Lectures on Convex Opt#20 · 加速法理论
Jain & Kar · Non-Convex Opt for ML#22 · SGD 在非凸
Tao · Random Matrix Theory#10 · 宽网络分析
Golub & Van Loan · Matrix Computations#13 · 数值实现

Direction C

学习理论 · 泛化分析

Wainwright · High-Dim Stats#31 · 核心工具箱
Boucheron et al. · Concentration#32 · 所有尾界
van der Vaart & Wellner · Empirical Proc#33 · 上游理论
Shalev-Shwartz & Ben-David#39 · PAC 与 VC 维
Mohri et al. · Foundations of ML#40 · Rademacher 界

不是入门。 是 AI 论文背后 真正在读的书。

Expected baseline

本科线代

实分析基础

本科概率

数学成熟度

第一卷 · 高阶线代与矩阵论

研究生线性代数

矩阵分析

数值线代 & 随机矩阵

第二卷 · 分析与凸优化

实 · 泛函分析

凸 与 非凸优化

最优传输

第三卷 · 测度论与高维概率

测度论概率

高维概率与集中现象

随机过程 & 随机分析

第四卷 · AI 理论前线

前线书单

三条研究方向的聚焦路径

扩散模型 · 生成式 AI

大模型训练 · 优化理论

学习理论 · 泛化分析

不是入门。
是 AI 论文背后
真正在读的书。

第一卷 · 高阶线代
与矩阵论

第二卷 · 分析
与凸优化

凸与非凸优化

第三卷 · 测度论
与高维概率

第四卷 · AI 理论
前线