← Math → AI
Vol. VI · Statistics
数据科学的灵魂
Volume VI · 统计学专卷

从样本
推断 真相 ——
这是 统计学

统计学是数据科学真正的灵魂。概率论从已知模型推导样本性质; 统计学反过来 —— 从手上的数据反推背后的模型。 机器学习的每一次"训练",本质上都是在做统计推断; 每一次"评估",都依赖统计假设。 这一卷把统计学独立成一条主线,从频率派到贝叶斯,从经典推断到因果与现代机器学习视角。

※ 关于这一卷的位置 —— 在 Vol. III & IV 里概率论已经覆盖,但统计学本身是一门 独立学科。这一卷把它单独抽出来,因为它是"做 ML"和"读懂 ML"之间最关键的一道门 —— 懂概率不一定会建模,懂统计才会。
§ 概率 vs 统计 · 同源不同向

两个方向相反的学科

概率论 · Probability

模型数据

已知一个分布 P(X),推导样本会有什么性质——比如 X 的均值、方差、尾界、收敛性。

核心问题是:如果世界长这样,我会观察到什么?

已知 P → 推导 X 的性质
统计学 · Statistics

数据模型

给定一组观察 x₁, ..., xₙ,推断它们背后的分布参数 θ、模型结构、因果关系。

核心问题是:我观察到的数据,世界长什么样才合理?

已知 X → 推断 P 的参数
I
Track I · Statistical Inference

第一卷 · 统计推断
的脊梁

从估计参数到检验假设,从频率派到似然原则。这条主线是整个统计学的核心骨架—— 点估计、置信区间、假设检验、最大似然、充分统计量、渐近理论。 任何一本严肃的 ML 教材都默认你掌握这一层。
点估计
置信区间
假设检验
最大似然
Cramér-Rao 下界
渐近正态性
Bootstrap
I.Tier 1 · Entry Point

入门 · 建立直觉

统计学的入门,要建立"从数据出发"的思维方式。这一层用最少的数学,把核心概念讲清楚。
先修:本科概率论(分布、期望、方差)。
I.Tier 2 · Mathematical Statistics

数理统计

数理统计是真正"做研究"的统计基础。充分统计量、Cramér-Rao 下界、UMP 检验、渐近理论。
先修:本科概率论、微积分、线代扎实。
04
★★ 数理统计圣经Casella · Berger
Statistical Inference
George Casella · Roger L. Berger · 第 2 版
2002 · Duxbury / Routledge · 660 pages
美国研究生统计专业的标准教材。从概率的基本原理出发,使用统计的、自然延伸的概念和定义,构建统计推断理论。覆盖分布、随机变量、数据缩减、点估计、假设检验、区间估计 —— 几乎所有经典推断的内容。
读懂 Casella-Berger 你就有"统计学家的眼睛"。
05
点估计权威Lehmann · Casella
Theory of Point Estimation
E. L. Lehmann · George Casella · 第 2 版
1998 · Springer · 590 pages
点估计的经典权威。Cramér-Rao 下界、UMVUE、minimax、Bayes 估计、shrinkage。深入到要写论文做估计理论才需要的细节。
JS 估计、shrinkage 估计、ridge 回归的源头。
06
假设检验权威Lehmann · Romano
Testing Statistical Hypotheses
E. L. Lehmann · Joseph P. Romano · 第 4 版
2022 · Springer · 1014 pages
假设检验的圣经。Neyman-Pearson 引理、UMP 检验、似然比检验、permutation 检验。所有 A/B 测试理论的源头。第 4 版 2022 新出。
A/B 测试和 ML 模型显著性比较的理论基础。
07
本科到研究生Hogg · McKean · Craig
Introduction to Mathematical Statistics
Hogg · McKean · Craig · 第 8 版
2018 · Pearson · 720 pages
比 Casella-Berger 友好,适合本科到研究生过渡。覆盖经典数理统计核心内容,例题和习题极多。许多美国学校用作高级本科教材。
如果 Casella-Berger 太硬,从这里起步。
08
贝叶斯倾向Schervish
Theory of Statistics
Mark J. Schervish
1995 · Springer · 724 pages
数理统计的另一选择,有强烈的贝叶斯味道。Schervish 把频率派和贝叶斯派放在同一个框架下讲,适合想往贝叶斯方向走的人。
同时学频率和贝叶斯思维,本书是最好的桥梁。
I.Tier 3 · Asymptotic Theory

渐近理论

当样本量 n → ∞ 时,估计会怎样?大数定律、中心极限定理、相合性、有效性、delta 方法 —— 这是统计学家工具箱里最常用的武器,也是机器学习证明里的核心。
先修:测度论概率(Durrett 或 Billingsley) + 数理统计 Tier 2。

统计推断是一门关于谦卑的学科 —— 它告诉我们,从有限的数据里,我们能合理地知道多少。

— Larry Wasserman · Carnegie Mellon University
II
Track II · Regression & Applied Statistics

第二卷 · 回归
与应用统计

回归是 ML 的祖先,也是数据分析的主力工具。 线性回归、广义线性、混合效应、多层模型 —— 是任何数据科学家或 ML 工程师每天都在用的东西。 这一卷是从理论走向应用的桥梁。
线性回归
广义线性模型
Lasso · Ridge
混合效应
分层模型
GAM
II.Tier 1 · The Modern Approach

现代回归之书

Gelman 团队过去十年重塑了"回归"的教法 —— 不再讲死板的假设检验,而是讲建模、可视化、解释。 这些书是当代数据分析的最佳起点。
先修:本科统计 + 一点 R 或 Python。
12
★★ 现代回归首选Gelman · Hill · Vehtari
Regression and Other Stories
Andrew Gelman · Jennifer Hill · Aki Vehtari
2020 · Cambridge · 547 pages
把回归讲成"用数据讲故事"。线性、逻辑、泊松回归;causal inference 章节专门讲因果; 模型检查、后验预测、贝叶斯回归 —— 用 stan_glm 工具,统一频率与贝叶斯。整本书可在配套网站读到大量案例。 是当代数据分析师最重要的一本书。
教你"做"回归,而不只是"算"回归。
13
★ 多层模型经典Gelman · Hill 老书
Data Analysis Using Regression and Multilevel/Hierarchical Models
Andrew Gelman · Jennifer Hill
2007 · Cambridge · 625 pages
前书 (#12) 的"老版本"——但分层模型/多层贝叶斯的处理远比新书全。如果你做面板数据、A/B 实验、因果效应、跨学校跨地区的数据,这本书是必备。
分层贝叶斯 = 多任务学习的祖先,真正的工具书。
14
★ ISL · 必读Stanford 四大师 · 免费
Introduction to Statistical Learning
James · Witten · Hastie · Tibshirani · 第 2 版
2021 · Springer · 免费 PDF · 含 R 与 Python 版
统计学习的标杆入门。从线性回归一路讲到 SVM、树、神经网络,全部以"统计学家"的角度。每章配实验代码,可在 Google Colab 直接跑。
是 ESL 的简化版,也是工程师入门 ML 的最佳路径。
15
★★ ESL · 圣经免费 PDF
Elements of Statistical Learning
Hastie · Tibshirani · Friedman · 第 2 版
2009 · Springer · 745 pages · 免费
"统计学习"领域定义性的著作。从线性、Lasso、Ridge,到 boosting、SVM、神经网络。数学密度极高,读懂它你就从"调包侠"升级为"懂原理的人"。
每个 ML 算法的统计解释都能在这本书找到。
16
回归建模实战Harrell
Regression Modeling Strategies
Frank E. Harrell · 第 2 版
2015 · Springer · 582 pages
医学统计师的实用宝典。spline、缺失数据处理、模型校准、log-rank、validation。讲的是"做"回归 - 模型如何选、如何验证、如何稳健。
如果你的工作是"做出能信的数据分析",这本书就是工具箱。
17
GAM 权威Wood
Generalized Additive Models: An Introduction with R
Simon N. Wood · 第 2 版
2017 · CRC Press · 496 pages
GAM(广义可加模型)的权威。spline 平滑、tensor 乘积、混合效应 GAM。是非线性回归的经典工具,也是现代深度学习"特征工程层"的统计学根。
许多神经网络架构本质上是 deep GAM。

每一个机器学习模型,本质上都是一个被命名为别的东西的回归。

— Andrew Gelman · Columbia University
III
Track III · Bayesian Statistics

第三卷 · 贝叶斯
统计学

贝叶斯统计是 21 世纪 AI 真正的统计基础。 神经网络的不确定性估计、概率编程(Stan、PyMC、Pyro、NumPyro)、生成模型 —— 背后都是贝叶斯思想。从入门到圣经级 BDA3,再到现代变分推断。
先验/后验
MCMC
变分推断
分层模型
概率编程
模型比较
III.Tier 1 · Bayesian Thinking

贝叶斯思维入门

贝叶斯不是"另一种统计"——它是另一种思维方式。这一层书会帮你完成思维的切换: 不再问"这个 p 值显不显著",而问"在数据下,我对参数有多少信念"。
先修:概率基础 + 一点 R 或 Python。
III.Tier 2 · BDA3 · The Bible

BDA3 · 贝叶斯圣经

研究级别贝叶斯统计的事实标准。 Gelman 团队的 BDA3 是这门学科的中心 —— 任何严肃的贝叶斯应用,都会回到这本书。
先修:Tier 1 一本 + 概率论。
III.Tier 3 · Modern Bayesian × ML

现代贝叶斯 × ML

贝叶斯遇上深度学习与现代 AI。这一层是 2018 年之后的新书,直接面向 PyMC、Pyro、NumPyro 用户。
先修:BDA3 + ML 基础。

贝叶斯思想的核心,是承认不确定性本身就是一种知识

— Andrew Gelman · Columbia · BDA3
IV
Track IV · Causal Inference

第四卷 · 因果
推断

"相关 ≠ 因果"是统计学最古老也最深刻的教训。 因果推断是当代 AI 一个独立且高速发展的方向 —— 反事实生成、do-calculus、潜在结果框架、工具变量、断点回归。 要做严肃的 AI 决策系统,绕不开这一卷。
潜在结果
DAG · do-calculus
RCT
工具变量
断点回归
倾向评分
IV.Tier 1 · Causal Thinking

因果思维入门

因果推断是两个学派的并行 —— Pearl 的 DAG/do-calculus 学派,和 Rubin 的潜在结果学派。这一层让你建立因果思维。
先修:本科统计 + 一点贝叶斯思维(McElreath 同时覆盖因果)。
IV.Tier 2 · Two Schools

两大学派权威

Pearl 的 DAG 学派和 Rubin 的潜在结果学派各有自己的奠基之作。两派看似不同,实际同构 —— 但用语言不同。
先修:Tier 1 完成 + 数理统计。
30
★★ 因果奠基Pearl · 图灵奖
Causality: Models, Reasoning, Inference
Judea Pearl · 第 2 版
2009 · Cambridge · 484 pages
Pearl 因这本书成为因果推断领域的奠基者(2011 年图灵奖)。do-calculus、SCM(结构因果模型)、反事实理论 —— 都在这里。这本书重新定义了"因果"在 AI 里的位置。
现代 AI 因果建模的元参考。
31
★★ Rubin 学派权威Imbens · Rubin
Causal Inference for Statistics, Social, and Biomedical Sciences
Guido W. Imbens · Donald B. Rubin
2015 · Cambridge · 644 pages
Rubin 自己写的潜在结果框架(Neyman-Rubin Causal Model)的权威。匹配、倾向评分、双盲实验、IV、敏感度分析。Imbens 因因果推断方法获得 2021 年诺贝尔经济学奖。
A/B 实验、广告效应估计的官方教材。
32
经济学者必读Angrist · Pischke
Mostly Harmless Econometrics
Joshua D. Angrist · Jörn-Steffen Pischke
2009 · Princeton · 290 pages
Angrist(2021 诺贝尔经济学奖)写的因果推断/计量经济学入门。提供应用因果推断技术于经济研究的实操指南,理论与实践结合。
A/B 测试 / 在线实验设计的现代方法基础。
33
入门补充Angrist · Pischke 第 2 本
Mastering 'Metrics: The Path from Cause to Effect
Joshua D. Angrist · Jörn-Steffen Pischke
2014 · Princeton · 282 pages
"Mostly Harmless"的简化版,更像因果思维的入门。RCT、IV、断点回归(RDD)、双重差分(DiD)各一章 —— 这五种方法是因果分析的支柱。
5 种主流因果方法的最快入门。
IV.Tier 3 · Causal × ML

因果 × 机器学习

ML 与因果推断融合的新方向。当代研究热点 —— Causal Representation Learning, 双重机器学习, S-learner / T-learner。
先修:Tier 2 一本 + ML 基础。

统计学告诉你是什么,而因果推断告诉你为什么—— 两者的距离,是 AI 真正理解世界的距离。

— Judea Pearl · UCLA · Turing Award 2011
V
Track V · Modern Statistics

第五卷 · 现代统计学

当样本维度 p 远大于样本量 n 时,经典统计学崩溃了。 现代统计学要解决的核心问题:高维、稀疏、非参数、稳健、计算高效。 这是 ML 论文里"统计学一面"的核心。
高维统计
稀疏推断
非参数
稳健统计
Conformal
在线统计
V.The Frontier

前线 · 现代统计

这一层的书全部 2010 年后出版,代表现代统计与 ML 融合的方向。
先修:数理统计 + ML 基础。
37
★★ 高维统计圣经Wainwright · Berkeley
High-Dimensional Statistics: A Non-Asymptotic Viewpoint
Martin J. Wainwright · Cambridge Series 48
2019 · Cambridge · 552 pages
Berkeley 的 Wainwright 把高维统计的全部工具整理在一本书里:尾界、集中、empirical process、稀疏估计、随机矩阵。Larry Wasserman 评价"未来多年的标准参考"。
读懂 Lasso、矩阵补全、Transformer 泛化理论的必经之路。
38
★ 稀疏统计Hastie · Tibshirani · Wainwright · 免费
Statistical Learning with Sparsity
Hastie · Tibshirani · Wainwright
2015 · CRC Press · 免费 PDF
Lasso 之父 Tibshirani 写的稀疏学习权威。从 Lasso 到 group Lasso、矩阵补全、广义稀疏。
稀疏神经网络剪枝(pruning)的统计基础。
39
非参数Tsybakov
Introduction to Nonparametric Estimation
Alexandre B. Tsybakov
2009 · Springer · 222 pages
非参数估计的标准教材。核估计、minimax 下界、自适应估计。神经网络的逼近理论很多结果就是非参数估计的特例。
深度学习近似理论里 minimax 界的源头。
40
非参数综合Wasserman
All of Nonparametric Statistics
Larry Wasserman
2006 · Springer · 268 pages
Wasserman"All of"系列的非参数版。曲线估计、密度估计、回归、bootstrap、Wavelet—— 浓缩在一本薄书里。
现代 ML 里"非参数模型"思维的最快入门。
41
★ Conformal 预测Vovk et al.
Algorithmic Learning in a Random World
Vladimir Vovk · Alex Gammerman · Glenn Shafer
2005 · Springer · 305 pages
Conformal Prediction(共形预测)的奠基之作 —— 给任何 ML 模型加上"分布无关"的统计保证。当代 LLM 不确定性估计的热点工具。
给 LLM 输出加置信区间,2024 后非常火。
42
现代综述Angelopoulos · Bates · 免费
A Gentle Introduction to Conformal Prediction
Anastasios N. Angelopoulos · Stephen Bates
2021 · arXiv · 免费
Berkeley 团队写的 Conformal Prediction 现代综述。比 Vovk 经典那本短得多,直接面向 ML 实践者。
想做"可信 AI"项目的入门书。
VI
Track VI · AI × Statistics · The Frontier

第六卷 · AI × 统计
融合前线

当代 AI 研究里"统计学的位置"在哪?泛化理论、样本复杂度、统计学习理论、PAC-Bayes —— 这些综合性的"AI 统计前线"专书,是 2018 年后出版的现代教材。
统计学习理论
PAC-Bayes
泛化界
在线学习
数据效率
VI.Integrated Frontier

融合 · AI 统计前线

这一层的书把统计学和 ML 真正缝合 —— 不是"用统计的方法做 ML",而是"用 ML 的视角重写统计"
43
★ 统计学习理论Shalev-Shwartz · Ben-David · 免费
Understanding Machine Learning: From Theory to Algorithms
Shai Shalev-Shwartz · Shai Ben-David
2014 · Cambridge · 449 pages · 免费 PDF
统计学习理论的标准教材。PAC 学习、VC 维、Rademacher 复杂度、boosting、SVM、在线学习 —— 数学严格而自包含。
"为什么深度学习能泛化"的统计基础。
44
NYU 教材Mohri et al.
Foundations of Machine Learning
Mehryar Mohri · Rostamizadeh · Talwalkar · 第 2 版
2018 · MIT Press · 504 pages
NYU 博士课程教材。和 Shalev-Shwartz 风格互补 —— Mohri 更偏理论界与算法分析的结合,讲 Rademacher 界特别清楚。
两本统计学习理论书,选一个对胃口的。
45
在线学习圣经Cesa-Bianchi · Lugosi
Prediction, Learning, and Games
Nicolò Cesa-Bianchi · Gábor Lugosi
2006 · Cambridge · 394 pages
在线学习与博弈论结合的权威。指数加权、bandit、regret 分析。RL、A/B 实验、动态推荐系统的统计基础。
在线 A/B 测试、推荐系统统计学的源头。
46
★ 统计 21 世纪Efron · Hastie · 免费
Computer Age Statistical Inference: Algorithms, Evidence, Data Science
Bradley Efron · Trevor Hastie
2016 · Cambridge · 495 pages · 免费 PDF
两位 Stanford 大师写的"21 世纪统计学全景"。从经典推断到 bootstrap、EM、Lasso、神经网络、boosting、随机森林、深度学习 —— 把整个统计的过去到当下做了一个回顾。
想理解"统计学如何走到 AI"这条历史路径,就读它。
§ Reading Paths · 三条统计学习路径

按你的目的选一条路

Path A · 数据科学家

实用统计建模路径

9 – 12 月 · 重应用
  1. OpenIntro Statistics#02 · 直觉建立 · 1 月
  2. All of Statistics#01 · 理论紧凑 · 2 月
  3. ISL · Statistical Learning#14 · ML 视角 · 2 月
  4. Regression and Other Stories#12 · 现代回归 · 2 月
  5. Statistical Rethinking#18 · 贝叶斯思维 · 2 月
  6. Hernán & Robins · Causal Inference#27 · 因果思维 · 1 月
Path B · ML 研究者

理论统计学习路径

15 – 24 月 · 重证明
  1. Casella & Berger · 数理统计#04 · 4 月
  2. van der Vaart · Asymptotic Stats#09 · 3 月
  3. Wainwright · High-Dim Stats#37 · 4 月
  4. BDA3 · Gelman 团队#21 · 4 月
  5. Shalev-Shwartz · Understanding ML#43 · 3 月
  6. Computer Age Stats Inference#46 · 持续
Path C · 因果 / 实验

因果与决策路径

10 – 14 月 · 重设计
  1. Statistical Rethinking#18 · 因果与贝叶斯思维 · 2 月
  2. Hernán & Robins · What If#27 · 标准教材 · 3 月
  3. Mostly Harmless / Mastering 'Metrics#32 / #33 · 2 月
  4. Imbens & Rubin#31 · 潜在结果框架 · 3 月
  5. Pearl · Causality#30 · DAG 学派 · 2 月
  6. Peters et al. · Causal Inference#34 · ML 视角 · 2 月