从零理解 Transformer
用更直观的方式理解 Transformer、向量表示、训练和注意力机制的入门笔记。
#tech / ai
#type / howto
#status / growing
#resource / transformer
[!info] related notes
- 所属 MOC: AI MOC
- 核心概念: transformer
- 工具实践: transformers, pytorch
从零理解 Transformer
适合谁看
这篇笔记适合在还没有把 Transformer 当成一套公式之前,先建立直觉理解。
先抓住一个核心想法
可以先把模型理解成一个复杂函数:输入一段信息,经过大量参数和结构变换,输出一个更接近目标的结果。
为什么需要这种模型
- 现实问题太复杂,无法手写精确规则
- 我们只能通过大量样本让模型去逼近一个有用的映射关系
- 训练的本质,就是不断调整参数,让输出更接近我们想要的答案
几个必须先建立的直觉
向量表示
- 文本、图片、音频最终都要变成可计算的向量
- 模型并不直接理解“词义”,而是处理这些数值表示
拟合
- 好模型不等于会思考的生命体
- 更准确地说,它是在参数空间里学到了更好的输入输出映射
训练
- 训练是通过损失函数和梯度更新参数
- 本质是在不断缩小预测结果和目标结果之间的差距
Transformer 最关键的直觉
- 它不靠传统循环一步步传递状态
- 它更强调让每个 token 直接关注序列里的其他 token
- 这种“谁和谁更相关”的关系,就是注意力机制最重要的价值
怎么和正式概念接起来
- 直觉层面:它是在学习复杂函数
- 结构层面:它通过注意力、前馈层、位置编码和残差来完成这种学习
- 工程层面:它成为 GPT、BERT、Whisper 等模型的重要基础
建议阅读顺序
- 先看这篇,建立直觉
- 再看
[[transformer]],补正式概念边界 - 最后看
[[transformers]]和[[pytorch]],把原理接到工具实践
常见误区
- 以为理解了“模型像函数”就等于理解了 Transformer
- 把训练看成神秘黑箱,不去理解参数更新和损失收敛
- 直接背术语,没有建立 token、向量、注意力之间的关系
最短记忆方式
先把 Transformer 理解成“会学习输入输出关系的结构化函数”,再去看注意力、训练和架构细节。