从零理解 Transformer

用更直观的方式理解 Transformer、向量表示、训练和注意力机制的入门笔记。

#tech / ai #type / howto #status / growing #resource / transformer

[!info] related notes

从零理解 Transformer

适合谁看

这篇笔记适合在还没有把 Transformer 当成一套公式之前,先建立直觉理解。

先抓住一个核心想法

可以先把模型理解成一个复杂函数:输入一段信息,经过大量参数和结构变换,输出一个更接近目标的结果。

为什么需要这种模型

  • 现实问题太复杂,无法手写精确规则
  • 我们只能通过大量样本让模型去逼近一个有用的映射关系
  • 训练的本质,就是不断调整参数,让输出更接近我们想要的答案

几个必须先建立的直觉

向量表示

  • 文本、图片、音频最终都要变成可计算的向量
  • 模型并不直接理解“词义”,而是处理这些数值表示

拟合

  • 好模型不等于会思考的生命体
  • 更准确地说,它是在参数空间里学到了更好的输入输出映射

训练

  • 训练是通过损失函数和梯度更新参数
  • 本质是在不断缩小预测结果和目标结果之间的差距

Transformer 最关键的直觉

  • 它不靠传统循环一步步传递状态
  • 它更强调让每个 token 直接关注序列里的其他 token
  • 这种“谁和谁更相关”的关系,就是注意力机制最重要的价值

怎么和正式概念接起来

  • 直觉层面:它是在学习复杂函数
  • 结构层面:它通过注意力、前馈层、位置编码和残差来完成这种学习
  • 工程层面:它成为 GPT、BERT、Whisper 等模型的重要基础

建议阅读顺序

  1. 先看这篇,建立直觉
  2. 再看 [[transformer]],补正式概念边界
  3. 最后看 [[transformers]][[pytorch]],把原理接到工具实践

常见误区

  • 以为理解了“模型像函数”就等于理解了 Transformer
  • 把训练看成神秘黑箱,不去理解参数更新和损失收敛
  • 直接背术语,没有建立 token、向量、注意力之间的关系

最短记忆方式

先把 Transformer 理解成“会学习输入输出关系的结构化函数”,再去看注意力、训练和架构细节。

创建于 2025/1/1 更新于 2026/5/27