统计学是数据科学真正的灵魂。概率论从已知模型推导样本性质; 统计学反过来 —— 从手上的数据反推背后的模型。 机器学习的每一次"训练",本质上都是在做统计推断; 每一次"评估",都依赖统计假设。 这一卷把统计学独立成一条主线,从频率派到贝叶斯,从经典推断到因果与现代机器学习视角。
已知一个分布 P(X),推导样本会有什么性质——比如 X 的均值、方差、尾界、收敛性。
核心问题是:如果世界长这样,我会观察到什么?
给定一组观察 x₁, ..., xₙ,推断它们背后的分布参数 θ、模型结构、因果关系。
核心问题是:我观察到的数据,世界长什么样才合理?
统计推断是一门关于谦卑的学科 —— 它告诉我们,从有限的数据里,我们能合理地知道多少。
每一个机器学习模型,本质上都是一个被命名为别的东西的回归。
贝叶斯思想的核心,是承认不确定性本身就是一种知识。
统计学告诉你是什么,而因果推断告诉你为什么—— 两者的距离,是 AI 真正理解世界的距离。