Agent 中的 Ground Truth Feedback

Agent 的稳定性高度依赖环境返回的真实反馈，例如工具结果、测试输出、编译错误和页面状态，这些信号比纯对话更接近可验证现实。

#tech / ai #type / concept #status / growing

[!info] related notes

所属 MOC: Agent MOC, Coding Agent MOC, Agent Evals MOC

前置概念: Agent, Augmented LLM

并列概念: Agent-Computer Interface (ACI)

易混淆概念:

关系笔记: Coding Agents, Agent 测试与评估

Agent 中的 Ground Truth Feedback

一句话定义

Ground truth feedback 指 agent 在执行过程中从环境拿到的真实结果信号，例如测试结果、编译输出、工具返回值和页面状态。

核心机制 / 工作原理

Agent 之所以比普通聊天更有执行力，一个关键原因就是它不必只靠“自我想象”判断自己做得对不对，而是可以看环境反馈。

常见 ground truth 包括：

命令是否执行成功
测试是否通过
页面元素是否真的出现
API 是否返回预期结果
文件内容是否真的被改动

最小例子 / 最小场景

coding agent 修改一段代码后，运行测试：

如果测试通过，这是正反馈
如果测试失败，报错堆栈就是下一轮修正的真实输入

这类反馈比单纯让模型“再想想”更可靠。

边界与易混淆点

ground truth 不是万能真相，它只反映当前观测层能验证的东西。
如果测试本身不完整，agent 仍然可能“骗过反馈”。
没有高质量环境反馈的 agent，通常更容易退化成长链路幻觉生成器。