Evaluator-Optimizer

一个 LLM 负责生成结果,另一个 LLM 负责评审并推动迭代优化,适合评判标准相对清楚的高质量任务。

#tech / ai #resource / evaluator-optimizer #type / concept #status / growing

[!info] related notes

Evaluator-Optimizer

一句话定义

Evaluator-optimizer 是一个模型先产出结果,再由另一个模型评审和反馈,形成迭代优化闭环的 workflow 模式。

核心机制 / 工作原理

它适合两类信号都明确的任务:

  • 什么叫“更好”能说清楚
  • 模型能基于反馈继续改进

它更像写作者和编辑的配合,而不是单轮生成。

最小例子 / 最小场景

  • 一个模型先翻译文章
  • 另一个模型检查语气、忠实度和术语一致性
  • 如果不达标,就带反馈重新生成

边界与易混淆点

  • 如果评价标准很模糊,评审模型只会输出空泛建议。
  • 这类模式很容易无限循环,所以通常要加停止条件。
  • evaluator 不是简单“挑刺”,而是要真的能提供能执行的反馈。
创建于 2026/5/4 更新于 2026/5/27