A Reading List · 精选书单 & 视频

矩阵之上,
有一整个 →
智能的世界。

这是一份从 线性代数 通往 现代 AI 的阅读与学习地图 —— 五个阶段、二十余种资源,每一步都精心排布,由浅入深。读完它,你会知道神经网络里那一堆矩阵乘法,究竟在说什么。

阶段5 个

书籍14 本

课程视频9 个

预计周期6–18 个月

Chapter I · 建立直觉

先把矩阵,看见

Visual First · Geometry Before Algebra

不要一上来就推公式。线性代数的美在它是几何—— 向量是箭头,矩阵是空间的变换。这一阶段用两套最好的视觉化资源,帮你建立"看到一个矩阵,脑中立刻浮现出它在做什么"的直觉。

向量线性变换行列式特征值 & 特征向量基变换

视频 / 视觉化课程★ 起点

Essence of Linear Algebra

3Blue1Brown · Grant Sanderson · 15 集 · ~3 小时

线性代数入门的黄金标准。用动画把向量、线性变换、行列式、特征值讲得前所未有的清楚。很多人说"看完这个再学线性代数课,像换了脑子"。建议把它当做所有后续学习的底色。

视频 / 基础配合练习

Khan Academy
线性代数

Salman Khan · 免费 · 中英字幕

3B1B 管"懂",可汗管"会做题"。两者互补。如果你高中数学有点生疏,从这里起步更稳。

书 / 交互式免费

Immersive Linear Algebra

J. Ström, K. Åström, T. Akenine-Möller · 网页版

第一本所有图示都可以交互的线性代数教材——拖动向量,矩阵立刻变。作为 3B1B 的文字版伙伴最合适。

书 / 入门教材免费 PDF

Linear Algebra · Hefferon

Jim Hefferon · 开源 · 含完整习题解答

免费的线代入门教材里最好的一本。叙述清晰,例子够多,证明严谨但不吓人。习题答案全公开。

线性代数不是一门关于数字的学科,它是一门关于空间、关于变换的学科。

— Grant Sanderson · 3Blue1Brown

Chapter II · 系统学习

打牢地基

Core Theory · Proofs · Applications

直觉有了,下一步是系统学习。 这一阶段选的三本书 + 一个 MIT 课程,目标是你能独立推导、能解决实际问题、能在遇到一个新定理时知道它为什么成立。

向量空间正交 SVD 矩阵分解最小二乘内积空间

课程 / 大学★ 经典

MIT 18.06
Linear Algebra

Prof. Gilbert Strang · MIT OpenCourseWare · 免费

Strang 是线性代数教学的传奇,这门课可能是全世界最好的大学线代课。有完整视频、讲义、习题和考试。配套教材是他自己写的 Introduction to Linear Algebra。

书 / 本科教材配合 MIT 18.06

Introduction to
Linear Algebra

Gilbert Strang · Wellesley-Cambridge · 第 6 版

和 18.06 一一对应的教材。Strang 的写作方式和大多数数学教材不一样—— 像一位老教授坐在你对面,从最直观的角度带你看每一个概念。

书 / 进阶免费 PDF

Linear Algebra Done Right

Sheldon Axler · 第 4 版 · Springer

用"不靠行列式"的路径重写线性代数。对想要数学成熟度的人,是一本让人豁然开朗的书。

书 / 交互教材免费

Interactive
Linear Algebra

Dan Margalit, Joseph Rabinoff · Georgia Tech

Georgia Tech 的开源交互教材。每一个概念都配可拖动的可视化,适合边学边玩。

视频 / 讲座历史版本

MIT 18.06
Lectures

Gilbert Strang · YouTube 全套

上面课程的全部讲座视频。Strang 站在黑板前讲课的样子,本身就是一种教学艺术。

III

Chapter III · 面向机器学习

当数学遇上数据

Linear Algebra for ML · The Bridge

这是整条路径最关键的衔接。 纯数学和 AI 之间隔着"为什么 SVD 能做推荐系统"、"为什么 PCA 是特征值问题"这样的桥梁问题。这一阶段的资源,就是专门为打通这些关节写的。

PCA 最小二乘回归核方法矩阵微积分概率论基础凸优化入门

★ 核心课程 / MITLINEAR ALGEBRA × DEEP LEARNING

MIT 18.065 · Matrix Methods in Data Analysis, Signal Processing, and Machine Learning

Prof. Gilbert Strang · Spring 2018 · 36 Lectures · 免费完整视频

如果只能选一门课,就选这个。Strang 专门为 "线性代数如何成为深度学习的语言" 开的课——四大主题:线性代数 / 概率统计 / 优化 / 深度学习。讲 SVD、主成分、反向传播、神经网络,每一个都先从矩阵的角度讲清楚。配套教材是他 2019 年写的 Linear Algebra and Learning from Data。

书 / 必读免费 PDF

Mathematics for
Machine Learning

Deisenroth, Faisal, Ong · Cambridge · 2020

把 ML 需要的所有数学(线性代数、微积分、概率、优化)整合成一本书。前半部分讲数学,后半部分用数学一个个拆机器学习算法。是从数学到 ML 最完整的一本桥梁书。

课程 / 专项Coursera

Math for ML & Data Science
Specialization

DeepLearning.AI · Luis Serrano · 3 门课

Andrew Ng 团队出品,比 MIT 课轻松,面向准备转 ML 的工程师。边学边写 Python 代码。如果 Strang 的课觉得偏理论,从这里开始更舒服。

书 / 研究生级Springer

Linear Algebra and Optimization for Machine Learning

Charu C. Aggarwal · 2020 · Springer

把线性代数和优化放在一本书里,以 ML 问题为驱动。讲矩阵分解、推荐系统、谱聚类、核方法。适合已经学过基础线代的人深入。

课程 / 实战fast.ai · 免费

Computational
Linear Algebra

Rachel Thomas · fast.ai · Jupyter notebooks

完全实战路线的线代课——所有概念都用 Python 代码实现。从随机 SVD 讲到 PageRank、从背景去除讲到 topic modeling。看完你写代码的直觉会强很多。

几乎每一个学习算法,本质上都是在某个矩阵的特征空间里,找一个最好的方向。

— Gilbert Strang · MIT

Chapter IV · 深度学习的数学

从线性到非线性

Optimization · Probability · Information

神经网络 = 非线性函数 + 梯度 + 大量数据。 光有线性代数远远不够。这一阶段引入三个关键支柱: 凸/非凸优化、概率论与信息论、统计学习理论。到这里,你就从"会用 AI"迈向"能读顶会论文"。

凸优化随机梯度下降反向传播信息熵 / KL 散度概率图模型 VC 维 / 泛化理论

★ 经典 / 深度学习圣经免费在线

Deep Learning

Goodfellow, Bengio, Courville · MIT Press

Part I 是深度学习需要的数学全景(线代、概率、数值计算、ML 基础), 写得比任何数学书都贴合 AI 视角。就算你只读前 5 章,也值得拥有它。

书 / 优化圣经免费 PDF

Convex
Optimization

Stephen Boyd, Lieven Vandenberghe · Cambridge

Stanford 的 Boyd 写的凸优化教科书,ML 的每一篇理论论文背后都站着这本书。配套的 Stanford EE364A 视频课也免费公开。

书 / 概率 ML免费

Probabilistic
ML Vol. 1

Kevin P. Murphy · MIT Press · 2022

从概率的角度重写整个机器学习。比 Bishop 的老书新很多,覆盖 transformer 前的现代 ML。

书 / 高阶主题免费

Probabilistic
ML Vol. 2

Kevin P. Murphy · 2023

第二卷涵盖深度生成模型、GNN、强化学习、因果推断——几乎所有当下的 AI 前沿主题。

书 / 信息论免费

Information
Theory · MacKay

David MacKay · Cambridge

信息论、推断与学习算法合一。读懂了它,你会明白为什么交叉熵是损失函数的"默认选择"。

Chapter V · 前沿与研究

走向论文前线

Frontier · Theory · Research Directions

最后一站不是终点,是起点。 深度学习理论、Transformer 的数学、扩散模型、几何深度学习、强化学习 — 这里每一个方向都仍在高速演化。下面选的资源是 2024-2025 年最新的入口, 配合 arXiv 每周读,你就站在了浪尖上。

Transformer 理论 Diffusion Models Geometric DL Neural ODE RLHF Scaling Laws

书 / 前沿理论arXiv · 2024-2026

Mathematical Theory
of Deep Learning

Philipp Petersen, Jakob Zech · 最新版 2026.01

用三大支柱——近似理论、优化理论、统计学习理论——构建深度学习的完整数学框架。是目前理解"神经网络为什么能工作"最系统的一本书。

书 / 研究生教材2025

Mathematical
Foundations of DL

Spiliopoulos, Sowers, Sirignano · AMS GSM-252

从基础到前沿:反向传播、SGD 收敛性、神经 ODE、强化学习、分布式训练、自动微分。配有 Python 代码和练习,课堂/自学都合适。

书 + 课程 / 新方向免费

Geometric
Deep Learning

Bronstein, Bruna, Cohen, Veličković

用对称性和几何重新组织 DL——CNN、GNN、Transformer 都是同一个框架的特例。

视频 / 系列3B1B

But what is a
Transformer?

3Blue1Brown · 神经网络系列 Chapter 5+

Grant Sanderson 讲 Transformer 和注意力机制——依然是看完之后脑子换一遍的体验。

视频 / 动手实现★ 顶级

Neural Networks
Zero to Hero

Andrej Karpathy · 从零手搓 GPT

OpenAI 前研究员亲自带你从 0 写出一个 GPT。看完你会知道 LLM 内部每一行在干什么。

书 / 强化学习圣经免费

Reinforcement
Learning: An Introduction

Sutton & Barto · MIT Press · 第 2 版

RL 领域的标准教材。从马尔可夫决策过程一路讲到策略梯度、actor-critic。想懂 ChatGPT 背后的 RLHF,这本书是绕不开的基础。

资源 / 研究工具每日更新

arXiv · cs.LG / stat.ML

arxiv.org · 配合 Papers with Code / Hugging Face

A Suggested Schedule

一个参考的时间线

建立直觉

3B1B + Khan Academy,配合交互教材。关键是"看见"空间的变换。

1 – 2 个月

ii.

系统基础

MIT 18.06 + Strang 教材。每周做完一组习题。

3 – 4 个月

iii.

转向 ML

MML Book + MIT 18.065。同步写 NumPy 实现。

3 – 4 个月

iv.

深度学习数学

Deep Learning Book Part I + 凸优化 + Murphy PML。

4 – 6 个月

前沿与研究

Karpathy 手搓 GPT → 选方向 → 开始读论文、复现论文。

持续 · 永远

矩阵之上, 有一整个 → 智能的世界。