Agent 中的 Ground Truth Feedback
Agent 的稳定性高度依赖环境返回的真实反馈,例如工具结果、测试输出、编译错误和页面状态,这些信号比纯对话更接近可验证现实。
#tech / ai
#type / concept
#status / growing
[!info] related notes
- 所属 MOC: Agent MOC, Coding Agent MOC, Agent Evals MOC
- 前置概念: Agent, Augmented LLM
- 并列概念: Agent-Computer Interface (ACI)
- 易混淆概念:
- 关系笔记: Coding Agents, Agent 测试与评估
Agent 中的 Ground Truth Feedback
一句话定义
Ground truth feedback 指 agent 在执行过程中从环境拿到的真实结果信号,例如测试结果、编译输出、工具返回值和页面状态。
核心机制 / 工作原理
Agent 之所以比普通聊天更有执行力,一个关键原因就是它不必只靠“自我想象”判断自己做得对不对,而是可以看环境反馈。
常见 ground truth 包括:
- 命令是否执行成功
- 测试是否通过
- 页面元素是否真的出现
- API 是否返回预期结果
- 文件内容是否真的被改动
最小例子 / 最小场景
coding agent 修改一段代码后,运行测试:
- 如果测试通过,这是正反馈
- 如果测试失败,报错堆栈就是下一轮修正的真实输入
这类反馈比单纯让模型“再想想”更可靠。
边界与易混淆点
- ground truth 不是万能真相,它只反映当前观测层能验证的东西。
- 如果测试本身不完整,agent 仍然可能“骗过反馈”。
- 没有高质量环境反馈的 agent,通常更容易退化成长链路幻觉生成器。