Transformer
大语言模型和现代深度学习中常见的 Transformer 架构核心概念与组成要点。
#tech / ai
#type / concept
#status / growing
#resource / transformer
[!info] related notes
- 所属 MOC: AI MOC
- 入门理解: understanding-transformer-from-scratch
- 相关资源: transformers, openai-whisper
Transformer
一句话定义
Transformer 是一种基于注意力机制的神经网络架构,核心优势是能更好并行处理序列,并有效建模长距离依赖。
它解决了什么问题
- RNN 难并行
- 长距离依赖容易衰减
- 传统序列模型扩展到大规模训练时效率受限
核心组成
- Self-Attention:让 token 彼此建立关联
- Multi-Head Attention:从多个子空间并行看关系
- Feed Forward Network:对每个位置做非线性变换
- Residual + LayerNorm:帮助训练更稳定
- Positional Encoding:补足序列顺序信息
为什么重要
- 它是 GPT、BERT、T5、Whisper 等模型的重要基础
- 它推动了大模型训练和推理范式的发展
- 它让文本、图像、语音等模态都能共享相近的建模思路
常见演化方向
- Encoder-only:更适合理解任务
- Decoder-only:更适合生成任务
- Encoder-Decoder:更适合序列到序列任务
- 长上下文优化:FlashAttention、稀疏注意力、相对位置编码等
和相关笔记的边界
[[understanding-transformer-from-scratch]]更偏入门直觉和学习路径[[transformer]]负责回答“Transformer 到底是什么”[[transformers]]讲的是 Hugging Face 的工程工具库,不是模型架构本身
常见误区
- 把 Transformer 等同于所有大模型
- 只记住 attention,不理解位置编码和训练稳定性
- 以为它只服务文本,忽略它在语音和视觉里的扩展
最短记忆方式
Transformer 的关键是用注意力替代传统序列建模瓶颈,让大规模并行和长依赖学习变得更可行。