从零理解 Transformer

用更直观的方式理解 Transformer、向量表示、训练和注意力机制的入门笔记。

#tech / ai #type / howto #status / growing #resource / transformer

[!info] related notes

所属 MOC: AI MOC

核心概念: transformer

工具实践: transformers, pytorch

从零理解 Transformer

适合谁看

这篇笔记适合在还没有把 Transformer 当成一套公式之前，先建立直觉理解。

先抓住一个核心想法

可以先把模型理解成一个复杂函数：输入一段信息，经过大量参数和结构变换，输出一个更接近目标的结果。

为什么需要这种模型

现实问题太复杂，无法手写精确规则
我们只能通过大量样本让模型去逼近一个有用的映射关系
训练的本质，就是不断调整参数，让输出更接近我们想要的答案

几个必须先建立的直觉

向量表示

文本、图片、音频最终都要变成可计算的向量
模型并不直接理解“词义”，而是处理这些数值表示

拟合

好模型不等于会思考的生命体
更准确地说，它是在参数空间里学到了更好的输入输出映射

训练

训练是通过损失函数和梯度更新参数
本质是在不断缩小预测结果和目标结果之间的差距

Transformer 最关键的直觉

它不靠传统循环一步步传递状态
它更强调让每个 token 直接关注序列里的其他 token
这种“谁和谁更相关”的关系，就是注意力机制最重要的价值

怎么和正式概念接起来

直觉层面：它是在学习复杂函数
结构层面：它通过注意力、前馈层、位置编码和残差来完成这种学习
工程层面：它成为 GPT、BERT、Whisper 等模型的重要基础

建议阅读顺序

先看这篇，建立直觉
再看 [[transformer]]，补正式概念边界
最后看 [[transformers]] 和 [[pytorch]]，把原理接到工具实践

常见误区

以为理解了“模型像函数”就等于理解了 Transformer
把训练看成神秘黑箱，不去理解参数更新和损失收敛
直接背术语，没有建立 token、向量、注意力之间的关系

最短记忆方式

先把 Transformer 理解成“会学习输入输出关系的结构化函数”，再去看注意力、训练和架构细节。

Hugging Face Transformers