Evaluator-Optimizer

一个 LLM 负责生成结果，另一个 LLM 负责评审并推动迭代优化，适合评判标准相对清楚的高质量任务。

#tech / ai #resource / evaluator-optimizer #type / concept #status / growing

[!info] related notes

所属 MOC: AI MOC

前置概念: Agentic Systems

并列概念: Prompt Chaining, Agent 测试与评估

易混淆概念:

关系笔记: Agentic Workflow Patterns

Evaluator-Optimizer

一句话定义

Evaluator-optimizer 是一个模型先产出结果，再由另一个模型评审和反馈，形成迭代优化闭环的 workflow 模式。

核心机制 / 工作原理

它适合两类信号都明确的任务：

什么叫“更好”能说清楚
模型能基于反馈继续改进

它更像写作者和编辑的配合，而不是单轮生成。

最小例子 / 最小场景

一个模型先翻译文章
另一个模型检查语气、忠实度和术语一致性
如果不达标，就带反馈重新生成

边界与易混淆点

如果评价标准很模糊，评审模型只会输出空泛建议。
这类模式很容易无限循环，所以通常要加停止条件。
evaluator 不是简单“挑刺”，而是要真的能提供能执行的反馈。