Vol. I · 学习路径
从线性代数 到 人工智能
Est. 2026
A Reading List · 精选书单 & 视频

矩阵之上,
有一整个
智能的世界。

这是一份从 线性代数 通往 现代 AI 的阅读与学习地图 —— 五个阶段、二十余种资源,每一步都精心排布,由浅入深。 读完它,你会知道神经网络里那一堆矩阵乘法,究竟在说什么。

阶段5 个
书籍14 本
课程视频9 个
预计周期6–18 个月
I
Chapter I · 建立直觉

先把矩阵,看见

Visual First · Geometry Before Algebra
不要一上来就推公式。线性代数的美在它是几何—— 向量是箭头,矩阵是空间的变换。 这一阶段用两套最好的视觉化资源,帮你建立"看到一个矩阵,脑中立刻浮现出它在做什么"的直觉。
向量 线性变换 行列式 特征值 & 特征向量 基变换

线性代数不是一门关于数字的学科,它是一门关于空间、关于变换的学科。

— Grant Sanderson · 3Blue1Brown
II
Chapter II · 系统学习

打牢地基

Core Theory · Proofs · Applications
直觉有了,下一步是系统学习。 这一阶段选的三本书 + 一个 MIT 课程,目标是你能独立推导、能解决实际问题、 能在遇到一个新定理时知道它为什么成立。
向量空间 正交 SVD 矩阵分解 最小二乘 内积空间
III
Chapter III · 面向机器学习

当数学遇上数据

Linear Algebra for ML · The Bridge
这是整条路径最关键的衔接。 纯数学和 AI 之间隔着"为什么 SVD 能做推荐系统"、"为什么 PCA 是特征值问题"这样的桥梁问题。 这一阶段的资源,就是专门为打通这些关节写的。
PCA 最小二乘回归 核方法 矩阵微积分 概率论基础 凸优化入门
★ 核心课程 / MITLINEAR ALGEBRA × DEEP LEARNING
MIT 18.065 · Matrix Methods in Data Analysis, Signal Processing, and Machine Learning
Prof. Gilbert Strang · Spring 2018 · 36 Lectures · 免费完整视频
如果只能选一门课,就选这个。Strang 专门为 "线性代数如何成为深度学习的语言" 开的课——四大主题:线性代数 / 概率统计 / 优化 / 深度学习。讲 SVD、主成分、反向传播、 神经网络,每一个都先从矩阵的角度讲清楚。 配套教材是他 2019 年写的 Linear Algebra and Learning from Data
书 / 必读免费 PDF
Mathematics for
Machine Learning
Deisenroth, Faisal, Ong · Cambridge · 2020
把 ML 需要的所有数学(线性代数、微积分、概率、优化)整合成一本书。 前半部分讲数学,后半部分用数学一个个拆机器学习算法。是从数学到 ML 最完整的一本桥梁书。
课程 / 专项Coursera
Math for ML & Data Science
Specialization
DeepLearning.AI · Luis Serrano · 3 门课
Andrew Ng 团队出品,比 MIT 课轻松,面向准备转 ML 的工程师。 边学边写 Python 代码。如果 Strang 的课觉得偏理论,从这里开始更舒服。
书 / 研究生级Springer
Linear Algebra and Optimization for Machine Learning
Charu C. Aggarwal · 2020 · Springer
把线性代数和优化放在一本书里,以 ML 问题为驱动。 讲矩阵分解、推荐系统、谱聚类、核方法。适合已经学过基础线代的人深入。
课程 / 实战fast.ai · 免费
Computational
Linear Algebra
Rachel Thomas · fast.ai · Jupyter notebooks
完全实战路线的线代课——所有概念都用 Python 代码实现。 从随机 SVD 讲到 PageRank、从背景去除讲到 topic modeling。看完你写代码的直觉会强很多。

几乎每一个学习算法,本质上都是在某个矩阵的特征空间里,找一个最好的方向。

— Gilbert Strang · MIT
IV
Chapter IV · 深度学习的数学

从线性到非线性

Optimization · Probability · Information
神经网络 = 非线性函数 + 梯度 + 大量数据。 光有线性代数远远不够。这一阶段引入三个关键支柱: 凸/非凸优化、概率论与信息论、统计学习理论。 到这里,你就从"会用 AI"迈向"能读顶会论文"。
凸优化 随机梯度下降 反向传播 信息熵 / KL 散度 概率图模型 VC 维 / 泛化理论
★ 经典 / 深度学习圣经免费在线
Deep Learning
Goodfellow, Bengio, Courville · MIT Press
Part I 是深度学习需要的数学全景(线代、概率、数值计算、ML 基础), 写得比任何数学书都贴合 AI 视角。就算你只读前 5 章,也值得拥有它。
书 / 优化圣经免费 PDF
Convex
Optimization
Stephen Boyd, Lieven Vandenberghe · Cambridge
Stanford 的 Boyd 写的凸优化教科书,ML 的每一篇理论论文背后都站着这本书。 配套的 Stanford EE364A 视频课也免费公开。
书 / 概率 ML免费
Probabilistic
ML Vol. 1
Kevin P. Murphy · MIT Press · 2022
从概率的角度重写整个机器学习。比 Bishop 的老书新很多,覆盖 transformer 前的现代 ML。
书 / 高阶主题免费
Probabilistic
ML Vol. 2
Kevin P. Murphy · 2023
第二卷涵盖深度生成模型、GNN、强化学习、因果推断——几乎所有当下的 AI 前沿主题。
书 / 信息论免费
Information
Theory · MacKay
David MacKay · Cambridge
信息论、推断与学习算法合一。读懂了它,你会明白为什么交叉熵是损失函数的"默认选择"。
V
Chapter V · 前沿与研究

走向论文前线

Frontier · Theory · Research Directions
最后一站不是终点,是起点。 深度学习理论、Transformer 的数学、扩散模型、几何深度学习、强化学习 — 这里每一个方向都仍在高速演化。下面选的资源是 2024-2025 年最新的入口, 配合 arXiv 每周读,你就站在了浪尖上。
Transformer 理论 Diffusion Models Geometric DL Neural ODE RLHF Scaling Laws
书 / 前沿理论arXiv · 2024-2026
Mathematical Theory
of Deep Learning
Philipp Petersen, Jakob Zech · 最新版 2026.01
用三大支柱——近似理论、优化理论、统计学习理论——构建深度学习的完整数学框架。 是目前理解"神经网络为什么能工作"最系统的一本书。
书 / 研究生教材2025
Mathematical
Foundations of DL
Spiliopoulos, Sowers, Sirignano · AMS GSM-252
从基础到前沿:反向传播、SGD 收敛性、神经 ODE、强化学习、分布式训练、自动微分。 配有 Python 代码和练习,课堂/自学都合适。
书 + 课程 / 新方向免费
Geometric
Deep Learning
Bronstein, Bruna, Cohen, Veličković
用对称性和几何重新组织 DL——CNN、GNN、Transformer 都是同一个框架的特例。
视频 / 系列3B1B
But what is a
Transformer?
3Blue1Brown · 神经网络系列 Chapter 5+
Grant Sanderson 讲 Transformer 和注意力机制——依然是看完之后脑子换一遍的体验。
视频 / 动手实现★ 顶级
Neural Networks
Zero to Hero
Andrej Karpathy · 从零手搓 GPT
OpenAI 前研究员亲自带你从 0 写出一个 GPT。看完你会知道 LLM 内部每一行在干什么。
书 / 强化学习圣经免费
Reinforcement
Learning: An Introduction
Sutton & Barto · MIT Press · 第 2 版
RL 领域的标准教材。从马尔可夫决策过程一路讲到策略梯度、actor-critic。 想懂 ChatGPT 背后的 RLHF,这本书是绕不开的基础。
资源 / 研究工具每日更新
arXiv · cs.LG / stat.ML
arxiv.org · 配合 Papers with Code / Hugging Face
学到这里,读论文就是日常。推荐订阅 cs.LG / cs.CL / stat.ML 每日列表, 关注 Lil'Log、The Gradient、Sebastian Raschka 的 newsletter 作为精选入口。
A Suggested Schedule

一个参考的时间线

i.

建立直觉

3B1B + Khan Academy,配合交互教材。关键是"看见"空间的变换。

1 – 2 个月
ii.

系统基础

MIT 18.06 + Strang 教材。每周做完一组习题。

3 – 4 个月
iii.

转向 ML

MML Book + MIT 18.065。同步写 NumPy 实现。

3 – 4 个月
iv.

深度学习数学

Deep Learning Book Part I + 凸优化 + Murphy PML。

4 – 6 个月
v.

前沿与研究

Karpathy 手搓 GPT → 选方向 → 开始读论文、复现论文。

持续 · 永远