Transformer

大语言模型和现代深度学习中常见的 Transformer 架构核心概念与组成要点。

#tech / ai #type / concept #status / growing #resource / transformer

[!info] related notes

Transformer

一句话定义

Transformer 是一种基于注意力机制的神经网络架构,核心优势是能更好并行处理序列,并有效建模长距离依赖。

它解决了什么问题

  • RNN 难并行
  • 长距离依赖容易衰减
  • 传统序列模型扩展到大规模训练时效率受限

核心组成

  • Self-Attention:让 token 彼此建立关联
  • Multi-Head Attention:从多个子空间并行看关系
  • Feed Forward Network:对每个位置做非线性变换
  • Residual + LayerNorm:帮助训练更稳定
  • Positional Encoding:补足序列顺序信息

为什么重要

  • 它是 GPT、BERT、T5、Whisper 等模型的重要基础
  • 它推动了大模型训练和推理范式的发展
  • 它让文本、图像、语音等模态都能共享相近的建模思路

常见演化方向

  • Encoder-only:更适合理解任务
  • Decoder-only:更适合生成任务
  • Encoder-Decoder:更适合序列到序列任务
  • 长上下文优化:FlashAttention、稀疏注意力、相对位置编码等

和相关笔记的边界

  • [[understanding-transformer-from-scratch]] 更偏入门直觉和学习路径
  • [[transformer]] 负责回答“Transformer 到底是什么”
  • [[transformers]] 讲的是 Hugging Face 的工程工具库,不是模型架构本身

常见误区

  • 把 Transformer 等同于所有大模型
  • 只记住 attention,不理解位置编码和训练稳定性
  • 以为它只服务文本,忽略它在语音和视觉里的扩展

最短记忆方式

Transformer 的关键是用注意力替代传统序列建模瓶颈,让大规模并行和长依赖学习变得更可行。

创建于 2025/1/1 更新于 2026/5/27