Embedding 模型
Embedding 模型把文本、图片或其他对象编码成向量,用于语义搜索、聚类、推荐、去重和 RAG 检索。
#tech / ai
#type / concept
#status / growing
#resource / embedding
[!info] related notes
- 所属 MOC: AI 模型能力 MOC, AI MOC
- 前置概念: LLM
- 并列概念: Reranker 模型
- 应用场景: Python RAG 文件问答 Agent, Augmented LLM
Embedding 模型
一句话定义
Embedding 模型把文本、图片、音频或其他对象编码成向量,使系统可以用距离或相似度比较它们的语义接近程度。
核心机制 / 工作原理
Embedding 的输出是一组数字,例如一个 384 维、768 维或 1536 维向量。语义越接近的内容,向量空间里的距离通常越近。
一个典型 RAG 链路是:
- 把文档切成 chunk。
- 用 embedding 模型把每个 chunk 转成向量。
- 把向量和原文存入向量数据库。
- 用户提问时,把问题也转成向量。
- 找到最相近的文本块,再交给 LLM 生成回答。
Embedding 模型通常不是直接生成最终回答,而是负责把内容变成可检索、可比较的语义表示。
最小例子 / 最小场景
在 Python RAG 文件问答 Agent 里,文档段落和用户问题都会先变成向量。系统通过向量相似度找出相关段落,再把这些段落放进 prompt。
常见使用场景
- 语义搜索
- RAG 知识库检索
- 文本聚类和去重
- 推荐系统召回
- 相似问题匹配
- 多模态检索
边界与易混淆点
- Embedding 不等于 LLM 回答:它负责表示和召回,不负责组织最终自然语言答案。
- Embedding 检索不等于关键词搜索:它看语义相似度,但可能漏掉精确字面条件。
- 向量维度越高不一定越好:还要看领域匹配、速度、存储成本和评估结果。
- RAG 里常需要 Reranker 模型 对召回结果二次排序。
最短记忆方式
Embedding 模型是“把内容压成可比较的语义坐标”的模型。