Reranker 模型

Reranker 模型对初步召回的候选内容重新排序,提升 RAG、搜索和推荐链路中最终上下文的相关性。

#tech / ai #type / concept #status / growing #resource / reranker

[!info] related notes

Reranker 模型

一句话定义

Reranker 模型用于对初步召回的一组候选内容重新排序,让最相关、最适合放进上下文的内容排在前面。

核心机制 / 工作原理

Embedding 检索通常先快速召回一批候选,例如 top 20 个文本块。Reranker 再逐个判断“查询和候选内容是否真的匹配”,输出更精细的相关性分数。

常见链路是:

  1. 用户提出问题。
  2. Embedding 模型 从向量库召回 top K 候选。
  3. Reranker 对“问题 + 候选文本”逐对打分。
  4. 选出分数最高的 top N。
  5. 把 top N 放进 LLM 上下文。

Reranker 通常比向量召回更慢,但判断更细,所以适合放在“先粗召回、再精排序”的第二阶段。

最小例子 / 最小场景

用户问“部署失败为什么是 403”,向量检索可能召回很多包含“部署”或“403”的段落。Reranker 会进一步判断哪些段落真正解释这个错误,而不是只因为关键词或语义相近就排前。

常见使用场景

  • RAG 检索结果重排
  • 搜索结果排序
  • FAQ 候选答案排序
  • 推荐系统精排
  • 多路召回结果合并

边界与易混淆点

  • Reranker 不负责生成答案:它只决定哪些候选更值得交给下游。
  • Reranker 不替代 embedding:embedding 负责快速召回,reranker 负责精细排序。
  • Reranker 会增加延迟和成本:候选数量、文本长度和批量推理策略都要控制。
  • 如果召回阶段完全没找对候选,reranker 也很难凭空补救。

最短记忆方式

Reranker 是 RAG 和搜索里的“复核排序层”,负责从候选里挑出最该给模型看的内容。

创建于 2026/6/23 更新于 2026/6/23