Embedding 模型

Embedding 模型把文本、图片或其他对象编码成向量,用于语义搜索、聚类、推荐、去重和 RAG 检索。

#tech / ai #type / concept #status / growing #resource / embedding

[!info] related notes

Embedding 模型

一句话定义

Embedding 模型把文本、图片、音频或其他对象编码成向量,使系统可以用距离或相似度比较它们的语义接近程度。

核心机制 / 工作原理

Embedding 的输出是一组数字,例如一个 384 维、768 维或 1536 维向量。语义越接近的内容,向量空间里的距离通常越近。

一个典型 RAG 链路是:

  1. 把文档切成 chunk。
  2. 用 embedding 模型把每个 chunk 转成向量。
  3. 把向量和原文存入向量数据库。
  4. 用户提问时,把问题也转成向量。
  5. 找到最相近的文本块,再交给 LLM 生成回答。

Embedding 模型通常不是直接生成最终回答,而是负责把内容变成可检索、可比较的语义表示。

最小例子 / 最小场景

Python RAG 文件问答 Agent 里,文档段落和用户问题都会先变成向量。系统通过向量相似度找出相关段落,再把这些段落放进 prompt。

常见使用场景

  • 语义搜索
  • RAG 知识库检索
  • 文本聚类和去重
  • 推荐系统召回
  • 相似问题匹配
  • 多模态检索

边界与易混淆点

  • Embedding 不等于 LLM 回答:它负责表示和召回,不负责组织最终自然语言答案。
  • Embedding 检索不等于关键词搜索:它看语义相似度,但可能漏掉精确字面条件。
  • 向量维度越高不一定越好:还要看领域匹配、速度、存储成本和评估结果。
  • RAG 里常需要 Reranker 模型 对召回结果二次排序。

最短记忆方式

Embedding 模型是“把内容压成可比较的语义坐标”的模型。

创建于 2026/6/23 更新于 2026/6/23