Transformer

大语言模型和现代深度学习中常见的 Transformer 架构核心概念与组成要点。

#tech / ai #type / concept #status / growing #resource / transformer

[!info] related notes

所属 MOC: AI MOC

入门理解: understanding-transformer-from-scratch

相关资源: transformers, openai-whisper

Transformer

一句话定义

Transformer 是一种基于注意力机制的神经网络架构，核心优势是能更好并行处理序列，并有效建模长距离依赖。

它解决了什么问题

RNN 难并行
长距离依赖容易衰减
传统序列模型扩展到大规模训练时效率受限

核心组成

Self-Attention：让 token 彼此建立关联
Multi-Head Attention：从多个子空间并行看关系
Feed Forward Network：对每个位置做非线性变换
Residual + LayerNorm：帮助训练更稳定
Positional Encoding：补足序列顺序信息

为什么重要

它是 GPT、BERT、T5、Whisper 等模型的重要基础
它推动了大模型训练和推理范式的发展
它让文本、图像、语音等模态都能共享相近的建模思路

常见演化方向

Encoder-only：更适合理解任务
Decoder-only：更适合生成任务
Encoder-Decoder：更适合序列到序列任务
长上下文优化：FlashAttention、稀疏注意力、相对位置编码等

和相关笔记的边界

[[understanding-transformer-from-scratch]] 更偏入门直觉和学习路径
[[transformer]] 负责回答“Transformer 到底是什么”
[[transformers]] 讲的是 Hugging Face 的工程工具库，不是模型架构本身

常见误区

把 Transformer 等同于所有大模型
只记住 attention，不理解位置编码和训练稳定性
以为它只服务文本，忽略它在语音和视觉里的扩展

最短记忆方式

Transformer 的关键是用注意力替代传统序列建模瓶颈，让大规模并行和长依赖学习变得更可行。

从零理解 Transformer