2017 年,Vaswani 等人在论文《Attention Is All You Need》中提出了 Transformer 架构。这一看似简洁的设计——用注意力机制完全替代循环和卷积——却引发了深度学习领域最深刻的范式变革。从 BERT 到 GPT-4,从 Llama 到 DeepSeek,几乎所有现代大语言模型的核心都建立在 Transformer 之上。
但知道 Transformer “是什么” 远远不够。为什么自注意力需要除以
本书的核心目标,是帮助读者建立对 Transformer 及其衍生模型的深层理解:
- 追溯来龙去脉:从 RNN 的梯度困境讲到注意力机制的诞生,理解每一步创新解决了什么问题
- 解剖设计决策:不仅给出公式,更解释每个设计选择背后的动机和权衡
- 揭示工作原理:用直觉、可视化和数学推导三位一体地解释核心机制为什么有效
- 贯通工程实践:从理论推导自然过渡到训练、推理与部署中的关键技术
- AI/NLP 研究者:需要深入理解 Transformer 设计原理及其变体的研究人员
- 算法工程师:从事大模型架构、训练、微调与部署的研发人员
- 机器学习从业者:希望从 “会用” 进阶到 “理解为什么” 的开发者
- 高校师生:希望结合业界最新实践,研究深度学习与大模型方向
- Transformer 为什么能取代 RNN:从序列建模的根本挑战出发,理解注意力机制解决了什么问题
- 注意力机制为什么有效:缩放因子的数学直觉、多头注意力的信息论解释、因果掩码的设计逻辑
- 各组件如何协同工作:残差连接如何解决梯度问题、层归一化为什么优于批归一化、前馈网络的“记忆”角色
- 位置编码的设计哲学:从正弦编码的外推性到 RoPE 的旋转直觉,理解不同方案的取舍
- 预训练范式背后的思想:为什么“预测下一个词”能学到语言知识?掩码预训练与自回归的本质区别
- 训练工程的底层逻辑:学习率预热的必要性、混合精度的精度保证、分布式训练的通信与拆分策略
- 对齐技术的设计动机:从 RLHF 的复杂性到 DPO 的简化之路
- 推理优化的第一性原理:KV 缓存为什么能加速、投机解码为什么是正确的、量化的精度-效率权衡
- 主流 LLM 的架构创新:GPT 系列的扩展逻辑、Llama 的开源策略、DeepSeek-V3 的 MoE 设计
- 前沿趋势的底层思考:状态空间模型能否替代注意力?多模态融合的核心挑战是什么?
本书共分为四个部分:
- 第一部分(基础篇):追溯 Transformer 的来龙去脉,从底层原理解析每一个核心组件的设计动因
- 第二部分(训练篇):从预训练思想到分布式训练工程,解释每种技术为什么有效
- 第三部分(推理与部署篇):从解码原理到推理加速,用第一性原理拆解优化技术
- 第四部分(模型与前沿篇):从经典模型的设计思路到前沿架构的创新逻辑
建议按顺序阅读第一部分以建立深层理解,之后可根据个人需求选择性深入后续部分。
“理解 Transformer 的核心机制”——跟随以下步骤快速掌握 LLM 基础:
- LLM 基础(第1-2章):理解什么是大语言模型、为什么采用神经网络、预训练的核心思想
- 注意力机制(第2章):掌握缩放点积注意力、自注意力和多头机制为什么是 Transformer 的核心
- Transformer 核心组件(第3章):理解前馈网络、残差连接、层归一化等模块如何协同工作
- 位置编码与训练演进(第4-8章):学习位置编码、预训练、训练技巧、分布式训练与对齐方法如何逐步推动模型能力提升
- 工程实践(第9-12章):理解训练、推理优化和部署的底层逻辑
graph LR
Start[LLM 学习入口] --> Ch1[第1-2章:基础理论]
Ch1 --> Role1["AI 初学者<br/>第1-4章"]
Ch1 --> Role2["算法工程师<br/>第1章 → 第3-8章"]
Ch1 --> Role3["系统工程师<br/>第1章 → 第9-12章"]
Ch1 --> Role4["研究人员<br/>第1章 → 第3-6章 → 第13-14章"]
Role1 --> End1["理解 LLM 核心"]
Role2 --> End2["掌握架构与训练"]
Role3 --> End3["优化推理部署"]
Role4 --> End4["探索前沿创新"]
| 读者角色 | 学习重点 | 核心成果 |
|---|---|---|
| AI 初学者 | 第1-4章 | 深入理解 Transformer 的工作原理 |
| 算法工程师 | 第1章 → 第3-8章 | 掌握 LLM 架构设计和训练优化 |
| 系统工程师 | 第1章 → 第9-12章 | 实现高效的推理和部署方案 |
| 研究人员 | 第1章 → 第3-6章 → 第13-14章 | 探索 LLM 前沿技术与创新方向 |
本书在线阅读,可直接访问 GitBook。
本书提供 PDF 版本供离线阅读,可前往 GitHub Releases 页面下载最新版本。
如需获取默认分支自动更新的预览版,可直接下载 llm_internals.pdf。该文件会随主线更新覆盖,不代表正式发布版本。
先安装 mdPress:
brew tap yeasy/tap && brew install mdpress
mdpress serve启动后访问 本地阅读地址 即可阅读。
读完本书后,你可以根据兴趣方向选择以下进阶读物:
| 书名 | 说明 |
|---|---|
| 《零基础学 AI》 | 普通人视角的 AI 入门与基础认知 |
| 《大模型提示词工程指南》 | 系统掌握与 AI 高效对话的提示词技术 |
| 《大模型上下文工程权威指南》 | 从提示词工程进阶到上下文工程 |
| 《Claude 技术指南》 | 深入掌握 Claude 的核心能力与最佳实践 |
| 《智能体 AI 权威指南》 | 全面学习智能体架构、多智能体协作与工程实践 |
| 《大模型安全权威指南》 | 了解大语言模型面临的安全威胁与防御机制 |
| 《OpenClaw 从入门到精通》 | 开源智能体框架的实践入门 |
| 《智能体 Harness 工程指南》 | 深入智能体 Harness 的模型集成层与输出治理设计 |
欢迎贡献!您可以通过以下方式参与:
本书采用 CC BY-NC-SA 4.0 许可证。
您可以自由分享和演绎,但需署名、非商业使用、相同方式共享。
