A Curated Bibliography · 纯书单

线性代数 ·
微积分 &
概率统计

三十余本书 · 四层递进 · 一张通往 AI 的阅读地图

每一本书都被放在明确的位置上 —— 是入门、是进阶、是权威教材、还是参考工具书。这份书单不求全,只求每本书都值得翻开、值得用一整个月去读。

3学科

4层级

30+本书

15+免费 PDF

∞阅读深度

§ 序 · 如何使用这份书单

每一本书的位置

Tier 1

入门 · 直觉

用来"打开眼界"的书。叙述轻松、图多、不求严格证明。目标是让你对这门学科产生兴趣,知道它大致在讲什么。

Tier 2

进阶 · 教材

第一本真正意义上的系统教材。有完整定义、证明、习题。读完一本能让你拥有独立推导的能力。

III

Tier 3

权威 · 深入

这一层是经典或研究生级别的教材。比 Tier 2 更严格、更抽象、面向"想真的懂"的读者。

Tier 4

参考 · 工具书

不是用来"读完"的。放在手边,遇到具体问题就翻某一章。很多在工作中会反复用到。

Track I · Linear Algebra

第一卷 · 线性代数

AI 的第一语言。几乎所有深度学习模型的前向推理都是一连串的矩阵运算。从视觉直觉到抽象向量空间,再到数值与矩阵微积分 —— 这四层书会把你从零带到能读任何论文的程度。

I.Tier 1 · Entry

入门 · 建立直觉

读这层之前你可以对矩阵一无所知。读完之后,你会"看见"矩阵在做什么。

★ 推荐起点免费 · 在线交互

Immersive Linear Algebra

J. Ström · K. Åström · T. Akenine-Möller

2015 · Interactive Web

第一本全部图示都能实时交互的线性代数教材——拖动向量,矩阵立刻在屏幕上变形。不用一张纸,把"线性变换就是空间变形"这件事讲透。最适合作为入门第一本书。

免费线代入门书里公认最好的一本。叙述温和,例题丰富,证明严谨但不吓人。完整习题带答案,可以把它当做正式的第一本教材来啃。

I.Tier 2 · Core Textbook

进阶 · 系统教材

真正"学会"线性代数就从这一层开始。选一本主攻,一本辅助。

★ 主流首选配套 MIT 18.06

Introduction to Linear Algebra

Gilbert Strang · 第 6 版

2023 · Wellesley-Cambridge

Strang 是现代线性代数教学的定义者。这本书叙述亲切得像老教授坐在你对面讲课,每一章都充满洞察。配套的 MIT 18.06 课程几乎和本书一一对应。如果只能选一本线代教材,就是它。

经典教材例题极详细

Linear Algebra

Friedberg · Insel · Spence · 第 5 版

2019 · Pearson

美国本科数学专业广泛用的教材。比 Strang 更"数学系风格"——定义、定理、证明的顺序严谨。例子和习题多到吃不完,是自学者查缺补漏最好的辅助。

数学系路线免费 PDF · 第 4 版

Linear Algebra Done Right

Sheldon Axler · Springer UTM

2024 · 免费官方 PDF

用"不靠行列式"的路径重写整个线性代数,把特征值、特征向量放在核心位置。读过 Strang 之后再读它,会有一种"啊原来还可以这样组织"的豁然开朗。对想往数学理论走的人是必经之路。第 4 版作者官方提供免费 PDF。

I.Tier 3 · Authoritative

权威 · 深入一层

这一层每一本都是专门写给"想真的懂"的人。

经典中的经典研究生参考

Linear Algebra

Kenneth Hoffman · Ray Kunze · 第 2 版

1971 · 历久弥新

半个世纪过去,这本书在严谨性和覆盖面上依然是最权威之一。Jordan 标准型、双线性型这些在其他教材里讲得不清的内容,在这里有完整处理。作为进阶参考书常读常新。

简洁 · 优雅Halmos

Finite-Dimensional Vector Spaces

Paul R. Halmos · Springer UTM

1958 / 重印中

Halmos 写的书,一如既往地简洁优雅。薄薄一本,但能塑造你对"向量空间"这个概念的最纯粹理解。适合有一定基础后作为思维训练。

★ 面向 MLSpringer · 新书

Linear Algebra and Optimization for Machine Learning

Charu C. Aggarwal

2020 · Springer

Strang · ML 方向配套 MIT 18.065

Linear Algebra and Learning from Data

Gilbert Strang · Wellesley-Cambridge

2019 · 第 1 版

Strang 八十岁后写的一本"晚年之作"——把线代、概率、优化、深度学习缝在一起。能感受到一位数学家用一生的经验,为 AI 时代重新讲线性代数。

I.Tier 4 · Reference

参考 · 工具书

不用读完,放在手边,遇到就翻。

应用工程师向免费 PDF

Vectors, Matrices, and Least Squares

Boyd · Vandenberghe

2018 · Cambridge

Stanford Boyd 为工程师写的应用线代。语言简洁,例子全来自真实数据科学问题。最小二乘占半本书。

数值方法经典

Numerical Linear Algebra

Trefethen · Bau

1997 · SIAM

写给工程和计算科学的人。QR、SVD、Krylov 方法的标准参考。训练大模型时读了会后悔没早点读。

矩阵分析百科Horn & Johnson

Matrix Analysis

Roger A. Horn · Charles R. Johnson

2013 · 第 2 版 · Cambridge

矩阵论的"词典"。范数、扰动、谱理论,任何深度论文里的偏技术定理,这里基本都能查到。不读,只翻。

线性代数之所以是 AI 的第一语言,是因为它给出了表示这件事最干净的数学形式。

— Gilbert Strang · MIT

Track II · Calculus

第二卷 · 微积分

AI 的学习动力。反向传播是链式法则的大规模自动化;优化器是导数信息的加工产物。从 Spivak 严格的单变量,到多变量,再到矩阵微积分与凸优化 —— 这条路就是通往"训练"本身。

II.Tier 1 · Entry

入门 · 建立直觉

先让微积分"回魂"——它本来是一门美的学科。

★ 免费教材OpenStax · Strang 等

Calculus · OpenStax

Strang · Herman 等 · Volumes 1–3

2016 / 持续更新

三卷本:单变量 · 多变量 · 级数与微分方程。完全免费,质量接近正规本科教材,每章有完整习题和答案。最踏实的起点。

科普读物可先读

Infinite Powers

Steven Strogatz

2019 · Houghton Mifflin

微积分的历史与思想史。不讲计算,讲"为什么人类要发明微积分"、"它如何改变世界"。读完后,正式学习会有完全不同的内在动机。

II.Tier 2 · Core Textbook

进阶 · 系统教材

理论派 vs 应用派 —— 按你的目的选一条路。

★ 理论路线神作

Calculus

Michael Spivak · 第 4 版

2008 · Publish or Perish

如果你想"真的"懂微积分,Spivak 是公认最好的一本。它本质上是一本温柔的实分析。严格、优雅、每一题都挑战人。读完之后你会觉得大学大部分数学课都是皮毛。对 AI 理论研究者是强烈推荐。

理论 · 应用平衡Caltech 教材

Calculus (2 vols)

Tom M. Apostol · 第 2 版

1967 · Wiley · 依然印刷

和 Spivak 同一级别但风格更"物理学家式":严格但始终有应用。卷 I 单变量,卷 II 多变量 + 线代 + 微分方程。读 Apostol 的人对物理和工程方向更友好。

应用路线免费 PDF

Calculus

Gilbert Strang · 第 3 版

1991 / 2023 重印 · MIT

Strang 写的微积分教材,风格和他的线代一样亲切,但单多变量一本到底。应用例子丰富,适合工程师和数据科学方向的人。MIT OCW 免费 PDF。

经典Courant & John

Introduction to Calculus and Analysis

Richard Courant · Fritz John · 2 vols

1965 / 重印 · Springer

Courant 是二十世纪最伟大的数学教师之一。这本书跟 Spivak 同级但更偏物理和应用直觉。许多人觉得它是"有温度的严格"——这种组合非常罕见。

II.Tier 3 · Authoritative

权威 · 多变量与优化

机器学习只关心多变量和优化。这一层才是 AI 直接需要的微积分。

★ 优化圣经免费 PDF · Stanford

Convex Optimization

Stephen Boyd · Lieven Vandenberghe

2004 · Cambridge University Press

ML 每一篇理论论文背后都站着这本书。凸集、凸函数、对偶、KKT 条件——这些概念一旦掌握,你对损失函数、正则化、SVM、甚至深度学习的优化动力学会有完全不同的理解。Boyd 亲自在 Stanford EE364 用了二十年。整本免费。

数值优化Nocedal · Wright

Numerical Optimization

Jorge Nocedal · Stephen J. Wright · 第 2 版

2006 · Springer

优化算法的工程百科。牛顿法、拟牛顿、信赖域、内点法 —— 这些现代优化器的"祖先"在这里有完整的分析和证明。

多变量 · 现代视角Hubbard

Vector Calculus, Linear Algebra, and Differential Forms

John & Barbara Hubbard · 第 5 版

2015 · Matrix Editions

把多变量微积分、线代、微分形式统一起来讲 —— 这就是现代几何深度学习需要的数学基础。Stokes 定理在这里终于看起来"理所当然"。

II.Tier 4 · Reference

参考 · 矩阵微积分与 AD

训练代码里每一行都在偷偷用这些。

★ 必备手册免费 PDF

The Matrix Cookbook

Petersen · Pedersen

2012 · 持续更新 · 70 页

对矩阵求导的公式查询手册。推反向传播推到一半忘了某个公式?翻一下这个 PDF,99% 能找到。写过 ML 论文的人人手一本。

自动微分权威SIAM

Evaluating Derivatives

Griewank · Walther · 第 2 版

2008 · SIAM

自动微分(反向传播背后的技术)最权威的书。PyTorch、JAX、TensorFlow 的设计思想在这里能找到理论基础。

数学家把微积分视为一门关于极限的学科,但对机器学习来说,它其实是一门关于梯度的艺术。

— Andrew Ng · Stanford

III

Track III · Probability & Statistics

第三卷 · 概率统计

AI 理解世界的方式。模型输出是概率分布,损失函数是负对数似然,扩散模型是对噪声的贝叶斯推断。概率论是 AI 三大支柱里"最容易误以为懂了"的那一门 —— 所以这部分更要认真选书。

III.Tier 1 · Entry

入门 · 建立直觉

概率直觉最容易出错。先慢慢建立它。

★ 免费入门OpenIntro · 第 4 版

OpenIntro Statistics

Diez · Çetinkaya-Rundel · Barr

2019 · 免费 PDF

最友好的免费统计入门。每章配真实数据集,用 R 做练习,不需要任何数学背景。读完它你会建立起"看到数据先想分布"的本能。

美国统计学科普的标杆。不讲计算,讲"为什么统计重要"——用保险、医疗、体育的故事,告诉你概率推断是怎么回事。通勤时读最合适。

III.Tier 2 · Core Textbook

进阶 · 系统概率论

三门数学里最不能"跳着学"的一门。Tier 2 是必须完整啃的一层。

★ 黄金标准免费完整 PDF · Harvard

Introduction to Probability

Joe Blitzstein · Jessica Hwang · 第 2 版

2019 · CRC Press · 官方免费版

Harvard Stat 110 的教材。Blitzstein 用"故事证明"的方式讲概率 —— 每个公式都先用一个故事说明"为什么应该是这样"。学完你会发现,直觉几乎总是错的,而概率论给你的是一套可靠的直觉替代品。如果只能读一本概率书,就是它。

MIT 教材工程师视角

Introduction to Probability

Dimitri Bertsekas · John Tsitsiklis · 第 2 版

2008 · Athena Scientific

MIT 6.041 的教材。比 Blitzstein 更偏工程和直觉,例子多来自通信、排队、信号。两本书风格不同,可以交叉阅读互补。

经典 · 免费Dartmouth

Introduction to Probability

Charles Grinstead · J. Laurie Snell

1997 · AMS · 免费 PDF

Dartmouth 的免费经典。马尔可夫链那几章讲得特别清楚,对后续学 MCMC、扩散模型都是好基础。

III.Tier 3 · Authoritative

权威 · 统计推断与贝叶斯

从"计算概率"到"用概率推理"。ML 的灵魂在这一层。

★ 神作免费 PDF · Cambridge

Information Theory, Inference, and Learning Algorithms

David MacKay

2003 · Cambridge · 免费

把信息论、贝叶斯推断、机器学习缝在一本书里 —— 只有 MacKay 能做到。读完你会明白为什么交叉熵是默认损失函数,为什么最大似然 ≈ 最小 KL 散度。读懂这本书,你对 AI 的理解会发生质变。

贝叶斯最佳入门第 2 版

Statistical Rethinking

Richard McElreath

2020 · CRC Press

全世界评价最好的贝叶斯入门。从因果和 DAG 开始讲概率模型,彻底颠覆"频率派 vs 贝叶斯派"的传统教学结构。每章配 R/Stan 代码。

把整个数理统计压缩到一本书里,专为 CS 背景的人写。如果你概率论已经懂,但统计推断没学过,这本书三周能补全。

贝叶斯圣经免费第 3 版 PDF

Bayesian Data Analysis

Andrew Gelman et al. · 第 3 版

2013 · CRC Press · 免费

Gelman 的 BDA3。贝叶斯建模的最权威工具书。分层模型、先验选择、MCMC 诊断 —— 做任何严肃的贝叶斯工作都会反复翻到它。

III.Tier 4 · Reference

参考 · 图模型与随机过程

图模型是现代生成式 AI 的直接祖先。

图模型百科Koller · Friedman

Probabilistic Graphical Models

Daphne Koller · Nir Friedman

2009 · MIT Press · 1270 页

概率图模型领域的完整百科。贝叶斯网、马尔可夫网、推断算法、学习算法 —— 不是用来读完的,是用来"遇到问题就翻"的。

因果推断的奠基著作。Pearl 因为这些工作拿了 2011 年图灵奖。对"相关 ≠ 因果"这件事的理解,会直接影响你做任何 AI 系统的思考方式。

机器学习本质是一种认识论 —— 它告诉我们,在有限的数据里,应该如何形成合理的信念。

— David MacKay · Cambridge

∞

Final Volume · Convergence

第四卷 · 三流合一

当三条主线汇入 AI。下面这些书都不只属于某一个单一学科,而是同时用到三种数学。它们是走到这一步之后,自然要读的下一批书。

IV.Integrated · Math for ML

三合一 · ML 数学

把线代、微积分、概率装进一本书。

★ 三合一首选免费 PDF · Cambridge

Mathematics for Machine Learning

Marc Peter Deisenroth · A. Aldo Faisal · Cheng Soon Ong

2020 · Cambridge · 免费官方 PDF

把 ML 所需的所有数学 —— 线代、微积分、概率、优化 —— 整合进一本书。前半部分讲数学,后半部分用数学一个个拆 ML 算法(PCA、SVM、高斯过程)。如果你不知道三条路读完后接哪本,就是它。

动手式Packt · 2024 新书

Mathematics of Machine Learning

Tivadar Danka

2024 · Packt

每个数学概念都配 NumPy/PyTorch 实现。从 SVD 到梯度下降,边推公式边写代码。风格比 MML Book 更工程化,适合动手派。

入门补充Cambridge · 新书

Mathematics for ML and Data Science

Jeff Calder · Peter Olver

2025 · Cambridge

刚出版的新教材。从线代到图论到概率全部自包含 —— 从零门槛能读起。适合作为大学本科二年级的 ML 数学替代教材。

IV.ML & Deep Learning

机器学习 · 深度学习经典

数学准备好了之后读的第一批 ML 专书。

★ PRML · 经典Bishop

Pattern Recognition and Machine Learning

Christopher M. Bishop

2006 · Springer · 738 页

二十年经典,俗称 PRML。从贝叶斯视角统一整个 ML。虽然深度学习部分有点老,但核心章节(指数族、EM、变分推断、图模型)至今无人能替代。

★ ESL · 统计学习圣经免费

Elements of Statistical Learning

Hastie · Tibshirani · Friedman · 第 2 版

2009 · Springer · 免费 PDF

俗称 ESL。Stanford 三大师的统计学习权威。从线性回归讲到 boosting、神经网络,数学密度极高。读懂它你就从"调包侠"升级为"能读论文的人"。

ISL · ESL 简化版免费 PDF

Introduction to Statistical Learning

James · Witten · Hastie · Tibshirani · 第 2 版

2021 · Springer

ESL 的简化版,读得动。R 和 Python 两个版本。如果 ESL 数学太重,从 ISL 起步。

现代 ML 教材Murphy · 免费

Probabilistic Machine Learning Vol. 1

Kevin P. Murphy

2022 · MIT Press · 免费

从概率视角重写整个 ML。比 PRML 新十多年,覆盖 Transformer 前的全部现代 ML。Murphy 自己提供免费完整 PDF。

★ 深度学习圣经Goodfellow et al. · 免费

Deep Learning

Ian Goodfellow · Yoshua Bengio · Aaron Courville

2016 · MIT Press · 免费在线

深度学习领域的第一本权威教材。Part I 是"深度学习需要的数学"的全景——线代、概率、数值计算、ML 基础。仅 Part I 就值这本书的所有分量。Part II 虽然模型层面有些过时(Transformer 前),但反向传播、正则化、优化那几章还是现代的。

实战教材免费 · 含代码

Dive into Deep Learning

Zhang · Lipton · Li · Smola

持续更新 · d2l.ai

李沐团队写的深度学习教材,每章配 PyTorch / MXNet / TF 三套代码。附录有一整章"深度学习所需数学",是数学三主线最务实的综合。

前沿主题Murphy · Vol. 2 · 免费

Probabilistic ML Advanced Topics

Kevin P. Murphy

2023 · MIT Press · 免费

Vol. 1 是基础,Vol. 2 才是前沿。深度生成模型、Transformer、图神经网络、强化学习、因果 —— 现代 AI 几乎所有热点话题都囊括。

IV.Frontier

前沿 · 研究方向

到这一层,选你关心的方向深入就够。

RL 圣经免费 PDF

Reinforcement Learning: An Introduction

Richard Sutton · Andrew Barto · 第 2 版

2018 · MIT Press · 免费

强化学习的标准教材。想懂 ChatGPT 背后的 RLHF,这本书的前半部分绕不开。作者官网提供免费 PDF。

新范式免费 · arXiv

Geometric Deep Learning

Bronstein · Bruna · Cohen · Veličković

2021 · 免费 ProtoBook

用对称性和群论重新组织深度学习 —— CNN、GNN、Transformer 原来是同一个数学框架的不同特例。可能是下一代 AI 理论的雏形。

研究生教材AMS · 2025

Mathematical Foundations of Deep Learning

Spiliopoulos · Sowers · Sirignano

2025 · AMS Graduate Studies 252

从基础到前沿:反向传播、SGD 收敛性、神经 ODE、强化学习、分布式训练、自动微分,全部在一本书里严格处理。配有 Python 代码。

最新理论综述arXiv · 2026 更新

Mathematical Theory of Deep Learning

Philipp Petersen · Jakob Zech

2024 · v4 · 2026.01 更新

三大支柱——近似理论、优化理论、统计学习理论——构建深度学习的完整数学框架。目前理解"神经网络为什么能工作"最系统的一本书。

§ 附 · 不同目的的三条阅读路径

你想走哪一条路?

Path A · Fastest

最短路径 · 6–9 月

面向已有编程基础、想快速能做 ML 项目的工程师。跳过严格证明,直奔应用。

Immersive Linear Algebra线代建立直觉 · 2 周
OpenStax Calculus Vol. 1–3 选读微积分补充 · 1 月
OpenIntro Statistics统计 · 1 月
Mathematics for Machine Learning三合一核心 · 2–3 月
Deep Learning · Goodfellow Part IML 数学全景 · 1 月
Dive into Deep Learning动手实现模型 · 持续

Path B · Rigorous

深度路径 · 18–24 月

面向想做 AI 研究、读懂顶会论文的学习者。严格训练数学功底。

Strang · Introduction to Linear Algebra主攻线代 · 3 月
Axler · Linear Algebra Done Right抽象向量空间 · 2 月
Spivak · Calculus严格微积分 · 4 月
Blitzstein · Introduction to Probability概率论 · 3 月
Boyd · Convex Optimization优化 · 3 月
MacKay · Information Theory信息 + 推断 · 2 月
Bishop PRML / Murphy PML正式进入 ML · 3 月+

Path C · Bayesian

贝叶斯路径 · 12–15 月

面向对扩散模型、生成式 AI、因果 AI 感兴趣的方向。

Strang · Introduction to Linear Algebra基础线代 · 2 月
OpenStax Calculus (多变量部分)梯度与优化 · 1 月
Blitzstein · Introduction to Probability扎实概率 · 3 月
MacKay · Information Theory推断之魂 · 2 月
McElreath · Statistical Rethinking贝叶斯建模 · 2 月
Koller · Graphical Models 选读图模型参考
Murphy PML Vol. 2前沿生成模型 · 2 月

线性代数 · 微积分 & 概率统计

每一本书的位置

入门 · 直觉

进阶 · 教材

权威 · 深入

参考 · 工具书

第一卷 · 线性代数

入门 · 建立直觉

进阶 · 系统教材

权威 · 深入一层

参考 · 工具书

第二卷 · 微积分

入门 · 建立直觉

进阶 · 系统教材

权威 · 多变量与优化

参考 · 矩阵微积分与 AD

第三卷 · 概率统计

入门 · 建立直觉

进阶 · 系统概率论

权威 · 统计推断与贝叶斯

参考 · 图模型与随机过程

第四卷 · 三流合一

三合一 · ML 数学

机器学习 · 深度学习经典

前沿 · 研究方向

你想走哪一条路?

最短路径 · 6–9 月

深度路径 · 18–24 月

贝叶斯路径 · 12–15 月

线性代数 ·
微积分 &
概率统计