The Missing Volume · 被拆散的微积分

当微积分
换了名字
进入 AI 研究。

这一卷补齐前几卷里被分散的"高阶微积分"。 研究生层面,单纯的微积分不再单独存在——它分化成了 微分几何、李群与表示论、偏微分方程与变分法、 流形优化、随机分析在 AI 的应用。这些方向,是 2024 年之后 AI 前沿论文真正依赖的数学。

⚠ 说明 —— 这一卷不是补习,是扩展。它假设你已经读过前四卷。如果你想研究等变神经网络、几何深度学习、扩散模型、PINN、Neural ODE、物理启发 AI, 这一卷是你真正需要的书。

§ 为什么说微积分在前卷"被拆散了"

一个科目,五个名字

本科"多变量微积分"

→

微分几何 · 流形 · 切丛 · Riemann 度量

本科"向量场旋度散度"

→

李群 · 李代数 · 表示论

本科"偏导 + 积分"

→

偏微分方程 · 变分法 · Sobolev 空间

本科"有约束求极值"

→

流形上的优化 · Riemannian 梯度法

本科"带随机扰动的导数"

→

随机分析 · SDE · 扩散生成模型

Track I · Differential Geometry

第一卷 · 微分几何

微分几何把微积分搬到"弯曲的空间"上。流形、切空间、Riemann 度量、曲率 —— 这是几何深度学习、信息几何、Wasserstein 梯度流、神经 ODE 的共同语言。曲线、曲面、光滑流形、黎曼流形,逐层展开。

→ Where it appears in AI SO(3)-等变 CNN、hyperbolic embeddings、图神经网络的谱理论、信息几何里的 Fisher 度量、最优传输的 Otto 结构、Neural ODE、流形学习、Wasserstein 梯度流 —— 这些现代 AI 方向都建立在本卷之上。

流形

切丛

微分形式

Stokes 定理

Riemann 度量

曲率

测地线

I.Tier 1 · Curves & Surfaces

曲线 · 曲面 · 初识几何

进入流形之前,先在二三维空间里建立几何直觉。高斯曲率、平均曲率、Gauss-Bonnet 定理 —— 这些概念在高维推广时会是熟悉的朋友。

先修:本科多变量微积分 + 线代。

★ 经典入门do Carmo · Dover 新版

Differential Geometry of Curves & Surfaces

Manfredo P. do Carmo

1976 / 2016 修订版 · Dover

几乎是全世界微分几何课的标准入门书。叙述清晰、例子丰富,从平面曲线一直讲到 Gauss-Bonnet 定理。为后续学习流形理论提供最好的直觉底座。

几何深度学习里关于"曲率"的所有概念,根都在这里。

美式入门Pressley · Springer

Elementary Differential Geometry

Andrew Pressley · 第 2 版

2010 · Springer · 474 pages

做得比 do Carmo 更现代一些,配图更多,习题有完整答案。适合自学者。末尾进入到 Riemann 曲面、双曲几何,作为后续 John Lee 三部曲的温和过渡。

如果 do Carmo 觉得老旧,这本是当代替代。

I.Tier 2 · Smooth Manifolds

光滑流形

真正的现代微分几何从这里开始。流形、切丛、微分形式、Lie 导数 —— 这些是几何深度学习、等变网络、张量场网络的基础语言。

先修:Tier 1 + 一般拓扑 + 实分析基础。

★★ 现代标准John Lee · GTM 218

Introduction to Smooth Manifolds

John M. Lee · 第 2 版

2012 · Springer GTM 218 · 708 pages

现代微分几何教材的首选。讲法层次清晰,每一个抽象概念前都有具体例子。覆盖光滑结构、切向量、向量丛、子流形、微分形式、de Rham 上同调、Lie 群基础。

学过 Lee,你能读懂任何关于"流形上 XX"的 AI 论文。

拓扑基础Lee 三部曲 · 第 1 本

Introduction to Topological Manifolds

John M. Lee · 第 2 版

2011 · Springer GTM 202 · 433 pages

Lee 三部曲的第一本。一般拓扑 + 流形拓扑 + 基本群 + 覆盖空间。如果你没学过拓扑,这本是 #03 的先修准备。

做 topological data analysis 或 persistent homology 也从这起步。

紧凑替代Tu · 简洁版

An Introduction to Manifolds

Loring W. Tu · 第 2 版

2011 · Springer Universitext · 411 pages

比 John Lee 更简洁的一本。省了一些细节,直接切入流形的核心。读完 do Carmo 后,想快速到达"流形"这个抽象层级,Tu 是最高效的选择。

需要几个月内"补齐流形"这个知识点,就选它。

I.Tier 3 · Riemannian Geometry

黎曼几何

给流形配上"度量"之后,就有了距离、角度、测地线、曲率——这是几何深度学习和 Riemannian 优化的直接数学基础。Bronstein 的几何 DL 原书每一页都在引用这一层。

先修:Tier 2(John Lee 光滑流形或 Tu)。

★ 首选教材John Lee · GTM 176

Introduction to Riemannian Manifolds

John M. Lee · 第 2 版

2018 · Springer GTM 176 · 437 pages

Lee 三部曲的顶峰。联络、测地线、指数映射、曲率张量、比较定理 —— 黎曼几何的核心内容。第 2 版扩充并重组,是当代最友好的 Riemann 几何教材。

信息几何里的"测地线"、超双曲嵌入都在这。

do Carmo · 经典GTM 经典续作

Riemannian Geometry

Manfredo P. do Carmo

1992 · Birkhäuser · 300 pages

do Carmo 的 Riemann 几何是另一个世界级选择。比 Lee 更紧凑,证明技巧更精到。特别是曲率和比较几何的处理很经典。

关于"曲率控制形状"这件事,do Carmo 讲得最美。

研究者向Petersen

Riemannian Geometry

Peter Petersen · 第 3 版

2016 · Springer GTM 171 · 499 pages

比 Lee 更偏现代研究视角。比较几何、Ricci 流动、收敛性 —— Villani 的最优传输里大量用到 Ricci 曲率理论,Petersen 就是通路。

Wasserstein 几何背后的 Ricci 曲率在这里。

应用向Jost · 数据科学视角

Riemannian Geometry and Geometric Analysis

Jürgen Jost · 第 7 版

2017 · Springer Universitext · 697 pages

除了标准 Riemann 几何内容,特别覆盖调和映射、Morse 理论、几何变分问题 —— 这些是数据流形学习、谱方法、深度学习损失曲面分析的直接工具。

神经网络损失曲面 = Morse 理论的应用场景。

理解了一个流形的曲率,就理解了它上面所有函数的命运。

— Peter Petersen · UCLA

Track II · Lie Groups, Lie Algebras & Representation Theory

第二卷 · 李群
与表示论

对称性是深度学习的一等公民。平移、旋转、置换、规范变换 —— 都是李群。 E(3)-Transformer、SE(3) 等变 CNN、群卷积网络、等变 GNN —— 这些现代架构全建立在李群和表示论之上。

→ Where it appears in AI SE(3) 等变 Transformer(用于分子、蛋白质)、球面 CNN、E(n)-GNN、张量场网络、 AlphaFold 里的 IPA 模块、CLIFFord 几何代数网络、规范等变 CNN —— 几乎整个"几何深度学习"都依赖这一卷。

矩阵李群

李代数

指数映射

根系与权

酉表示

紧群

半单李代数

II.Tier 1 · Matrix Lie Groups

矩阵李群入门

从"摸得着"的矩阵李群开始,避开抽象流形。Hall 的那本书是最好的桥梁 —— 用线代就能读,但最后达到半单李代数结构理论的高度。

先修:扎实的线代 + 基础分析。

★★ 最佳入门Brian Hall · GTM 222

Lie Groups, Lie Algebras, and Representations

Brian C. Hall · 第 2 版

2015 · Springer GTM 222 · 451 pages

李群学习的黄金入门。只需要线代基础,不需要预先学流形。从 SU(2)、SU(3) 的具体表示一路建到半单李代数的完整结构理论,包括 Baker–Campbell–Hausdorff 公式、根系、Weyl 群。等变神经网络研究者人手一本。

SE(3)-Transformer 论文里的公式,在 Hall 第 4 章就能找到推导。

物理风格Gilmore

Lie Groups, Lie Algebras, and Some of Their Applications

Robert Gilmore

1974 / 2005 Dover 重印 · 608 pages

物理学家视角的经典。讨论李群在 QM、经典力学、相对论、对称性破缺中的应用。对做物理启发 AI 或分子建模的人有独特价值。

物理 AI 方向读它能建立跨学科的共同语言。

Humphreys · 经典李代数路线

Introduction to Lie Algebras and Representation Theory

James E. Humphreys

1972 / 重印 · Springer GTM 9 · 171 pages

薄薄一百多页,李代数结构理论的经典。纯李代数路线(不讲李群),但把 Cartan-Killing 分类讲得最精炼。

如果 Hall 的书觉得啰嗦,Humphreys 是速成版。

II.Tier 2 · Representation Theory

表示论

表示论是"群如何作用于向量空间"——这恰好是等变神经网络的数学定义。不可约表示、Peter-Weyl 定理、Young 图、特征理论。

先修:Hall 的李群书 + 线代成熟度。

★ 必读Fulton · Harris · GTM 129

Representation Theory: A First Course

William Fulton · Joe Harris

1991 · Springer GTM 129 · 551 pages

表示论最受欢迎的入门书。前半部有限群(对置换等变有用),后半部半单李代数 + 经典群的表示。读它会让你看到等变神经网络里 "irrep decomposition"、"Clebsch-Gordan 系数" 这些术语的真实含义。

等变 GNN 论文里频繁出现的 Clebsch-Gordan,就是这本书第 4 章讲的。

紧李群深入Bröcker · tom Dieck

Representations of Compact Lie Groups

Theodor Bröcker · Tammo tom Dieck

1985 · Springer GTM 98 · 313 pages

紧李群表示论的权威。Peter-Weyl 定理、最高权分类 —— 等变 CNN 的理论证明反复调用这些结果。

球面 CNN(spherical CNN)的数学骨架。

对称群专题Sagan

The Symmetric Group: Representations, Combinatorial Algorithms

Bruce E. Sagan · 第 2 版

2001 · Springer GTM 203 · 238 pages

对称群 Sn 的表示论。置换等变 GNN、Young tableau、Specht 模 —— 多体系统和集合数据的深度学习背后都在用。

Set Transformer、DeepSets 的理论支撑在这里。

深度学习里的每一个归纳偏置,往往就是某个群的对称性的代数表达。

— Michael Bronstein · Oxford · Geometric Deep Learning

III

Track III · PDE · Calculus of Variations · Optimal Control

第三卷 · PDE · 变分
与最优控制

AI 与 PDE 的融合,是 2023 年之后最强的研究浪潮之一。PINN 直接用神经网络拟合 PDE 解; 扩散模型的 reverse-time SDE 对应一个 Fokker-Planck 方程;RL 的 HJB 方程直接来自最优控制; Neural ODE 本质上是 ODE 逆问题 —— 这一卷是这场浪潮的数学基础。

→ Where it appears in AI PINN (Physics-Informed Neural Networks)、Neural Operators (FNO、DeepONet)、扩散模型的 Fokker-Planck 分析、Neural ODE / Neural CDE、Hamilton-Jacobi 求解、连续时间 RL 的 HJB 方程、Pontryagin 最大值原理、生成模型的变分视角。

偏微分方程

Sobolev 空间

变分法

Fokker-Planck

HJB 方程

Pontryagin 原理

III.Tier 1 · PDE Foundations

PDE 基础

本科 PDE 课讲的是解方程的技巧;研究生 PDE讲的是方程背后的理论 —— 存在性、正则性、能量方法、弱解。

先修:实分析(Rudin 或 Folland) + 泛函分析基础(Brezis)。

★★ PDE 圣经Evans · AMS GSM 19

Partial Differential Equations

Lawrence C. Evans · 第 2 版

2010 · AMS Graduate Studies 19 · 749 pages

研究生 PDE 的事实标准。涵盖经典理论(热、波、Laplace)、一阶非线性方程、Sobolev 空间、弱解理论、变分法、二阶线性方程、哈密顿-雅可比、守恒律。做 PINN、Neural Operator、生成模型理论的人必读。

扩散模型的 Fokker-Planck 方程分析,打开 Evans 第 2 章就找到。

本科到研究生过渡Strauss

Partial Differential Equations: An Introduction

Walter A. Strauss · 第 2 版

2008 · Wiley · 464 pages

比 Evans 友好,不需要那么多泛函分析。如果直接读 Evans 吃力,先过 Strauss 一遍。物理直觉特别好。

建立"PDE 在物理中代表什么"的直觉。

椭圆 PDE 经典Gilbarg & Trudinger

Elliptic Partial Differential Equations of Second Order

David Gilbarg · Neil S. Trudinger

2001 · Springer · 517 pages

椭圆型 PDE 的权威。Schauder 估计、De Giorgi-Nash-Moser 理论。神经网络架构收敛性的高级证明里会用到。

椭圆理论是扩散过程稳态分析的工具。

III.Tier 2 · Calculus of Variations

变分法

"从无穷多函数里找最优那一个" —— 变分法是所有生成模型(GAN、VAE、扩散模型)的原理。Euler-Lagrange、直接法、Γ-收敛。

先修:PDE 基础 + 测度论。

经典入门Giusti

Direct Methods in the Calculus of Variations

Enrico Giusti

2003 · World Scientific · 403 pages

变分法的"直接法"权威教材。下半连续性、强制性、Sobolev 嵌入 —— 生成模型里"最小化某个泛函"的存在性都基于此。

VAE 变分下界的严格数学处理源于这里。

Dacorogna · 完整应用数学

Introduction to the Calculus of Variations

Bernard Dacorogna · 第 3 版

2015 · Imperial College Press · 340 pages

变分法最现代的入门。从经典 Euler-Lagrange 一直到凸变分问题和 Γ-收敛。大量真实问题的例子。

图像处理、形状优化 AI 里的变分模型背后的数学。

Γ-收敛权威Dal Maso

An Introduction to Γ-Convergence

Gianni Dal Maso

1993 · Birkhäuser · 340 pages

Γ-收敛是分析"一系列变分问题极限"的核心工具。现在被用来证明神经网络宽度趋近无穷时的极限行为(mean-field 极限)。

宽神经网络的 mean-field 分析用 Γ-收敛。

III.Tier 3 · Optimal Control

最优控制理论

连续时间 RL、Neural ODE 训练、最优策略 —— 所有这些问题本质上是最优控制。Pontryagin 最大值原理和 Hamilton-Jacobi-Bellman 方程是这一层的两大支柱。

先修:ODE + 基础泛函分析。

★ 现代入门Liberzon · Princeton

Calculus of Variations and Optimal Control Theory

Daniel Liberzon

2012 · Princeton · 254 pages

为工程师和 CS 博士写的最优控制书。从变分法起步,一路讲到 Pontryagin 原理和 HJB 方程。证明严格但可读。

RL 里的 Bellman 方程,就是 HJB 方程的离散化。

Bertsekas · DPRL 理论基础

Dynamic Programming and Optimal Control (2 vols)

Dimitri P. Bertsekas · 第 4 版

2017 · Athena Scientific

动态规划与最优控制的百科。Sutton-Barto 的 RL 圣经在理论层面大量引用 Bertsekas。想做 RL 理论研究,这本绕不开。

DQN、actor-critic 的收敛证明都引用 Bertsekas。

应用向 · KirkDover

Optimal Control Theory: An Introduction

Donald E. Kirk

1970 / 2004 Dover 重印 · 464 pages

工程向的最优控制经典。LQR、Pontryagin 原理在 2D/3D 动态系统中的详细应用。对学习机器人控制和 Model-based RL 有用。

机器人学习(Robot Learning)方向必备。

Neural ODE 看似是一种新想法,实际上是把最优控制的一百年历史接入了神经网络。

— Ricky T. Q. Chen · Neural ODE author

Track IV · Optimization on Manifolds

第四卷 · 流形上的
优化

当参数空间不是欧氏空间,梯度下降必须搬到流形上。 正交约束、低秩约束、旋转群上的优化 —— 这些都需要Riemannian 梯度、retraction、 vector transport。这是现代深度学习里一个独立且快速成长的分支。

→ Where it appears in AI 低秩矩阵补全、正交权重约束(训练稳定性)、旋转不变特征学习、 Grassmann 流形上的多任务学习、Stiefel 流形优化、LoRA 和 OFT 等 PEFT 方法的理论基础、双曲空间嵌入、SO(3) 上的姿态估计。

Retraction

Vector transport

Stiefel/Grassmann

测地凸性

Riemannian SGD

PyManopt

IV.Core Texts · 唯一一门学科

流形优化的核心书

这门学科相对年轻,经典书不多但都很权威。两本核心教材 + 两本参考,基本覆盖整个方向。

先修:微分几何 Tier 2(光滑流形) + 凸优化基础。

★★ 奠基之作Absil · Mahony · Sepulchre · 免费在线

Optimization Algorithms on Matrix Manifolds

P.-A. Absil · Robert Mahony · Rodolphe Sepulchre

2008 · Princeton · 240 pages · 免费 PDF

定义了"流形优化"这门学科。Retraction(退却)、vector transport、Stiefel 和 Grassmann 流形上的梯度法、共轭梯度、牛顿法。每一个现代 Riemannian 优化算法的祖先都在这本书里。Princeton 提供免费完整在线版。

正交神经网络训练、LoRA 理论分析都从这本书出发。

★★ 现代教材Boumal · Cambridge · 免费 PDF

An Introduction to Optimization on Smooth Manifolds

Nicolas Boumal

2023 · Cambridge · 408 pages · 免费预印版

Absil 之后 15 年的现代教材。无先修几何基础的读者也能学 —— 它把必要的微分几何和 Riemannian 几何嵌入书中。覆盖测地凸性、Riemannian SGD、大规模问题。配套 EPFL MATH-512 录像 + Manopt/PyManopt 工具包。

想做流形优化的新人 —— 直接从 Boumal 起步。

测地凸优化Sra · Bacák

An Invitation to Geodesic Convex Optimization

Suvrit Sra · Miroslav Bacák

2023 · Springer Briefs

测地凸优化 —— 在非欧空间里推广凸性。流形上的分布鲁棒、Hadamard 空间、metric 优化。是流形优化与 ML 连接的新前沿。

双曲空间嵌入的训练算法基础。

综述参考Foundations and Trends

Riemannian Optimization: A Survey

Reshad Hosseini · Suvrit Sra

2020 · Foundations and Trends in Optimization

流形优化在机器学习里最近十年进展的综述。涵盖非凸 Riemannian 随机方法、分布式情形、正则化。

跟踪最新算法复杂度结果的起点。

很多看似"非凸"的 ML 问题,换到一个合适的流形上就变成了凸的。

— Suvrit Sra · MIT · TU München

Track V · Stochastic Analysis for AI & Diffusion Models

第五卷 · 随机分析
在 AI 的应用

扩散模型、score matching、flow matching —— 整个当代生成式 AI 的数学核心都是随机分析。 前卷里提到了经典的 Øksendal、Karatzas-Shreve,但它们离 AI 应用还有距离。这里的书是专门为 AI 研究者写,或者直接写应用的新书。

→ Where it appears in AI Denoising Diffusion(DDPM)、Score-based Generative Models (SGM)、Flow Matching、连续归一化流、Bayesian Deep Learning 里的 Langevin 采样、MCMC 的数学分析、 Kalman/粒子滤波器、Gaussian Process 的时空扩展。

Itô 积分

Fokker-Planck

Score matching

Langevin 动力学

Flow matching

粒子滤波

V.Tier 1 · SDE for Practitioners