Evaluator-Optimizer
一个 LLM 负责生成结果,另一个 LLM 负责评审并推动迭代优化,适合评判标准相对清楚的高质量任务。
#tech / ai
#resource / evaluator-optimizer
#type / concept
#status / growing
[!info] related notes
- 所属 MOC: AI MOC
- 前置概念: Agentic Systems
- 并列概念: Prompt Chaining, Agent 测试与评估
- 易混淆概念:
- 关系笔记: Agentic Workflow Patterns
Evaluator-Optimizer
一句话定义
Evaluator-optimizer 是一个模型先产出结果,再由另一个模型评审和反馈,形成迭代优化闭环的 workflow 模式。
核心机制 / 工作原理
它适合两类信号都明确的任务:
- 什么叫“更好”能说清楚
- 模型能基于反馈继续改进
它更像写作者和编辑的配合,而不是单轮生成。
最小例子 / 最小场景
- 一个模型先翻译文章
- 另一个模型检查语气、忠实度和术语一致性
- 如果不达标,就带反馈重新生成
边界与易混淆点
- 如果评价标准很模糊,评审模型只会输出空泛建议。
- 这类模式很容易无限循环,所以通常要加停止条件。
- evaluator 不是简单“挑刺”,而是要真的能提供能执行的反馈。