Agent 中的人类监督
人类监督不是给 agent 兜底的口号,而是把审批、判断和升级点明确插入执行闭环中,控制高风险动作和不可逆决策。
#tech / ai
#type / concept
#status / growing
[!info] related notes
- 所属 MOC: Agent MOC, Agent Evals MOC
- 前置概念: Agent, Agent Guardrails
- 并列概念: Agent 中的 Approval Checkpoints, Agent 中的 Stopping Conditions
- 易混淆概念:
- 关系笔记: Customer Support Agents, Coding Agents, Agent 执行闭环
Agent 中的人类监督
一句话定义
人类监督是把人工判断显式插入 agent 执行闭环中的设计,而不是事后再看结果对不对。
核心机制 / 工作原理
适合交给人类的通常是:
- 高风险动作审批
- 模糊或价值判断很强的决策
- 需求边界不清时的澄清
- 最终交付前的质量把关
监督点可以出现在:
- 任务开始前
- 关键动作前
- 遇到 blocker 时
- 完成后 review 阶段
最小例子 / 最小场景
coding agent 自动改完代码后:
- 自动跑测试
- 自动给出改动说明
- 但最终是否合并,仍由人类 code review 决定
边界与易混淆点
- human oversight 不等于“每一步都让人确认”,那样系统就失去 agent 的意义了。
- 真正有价值的监督是插在高杠杆、高风险节点,而不是平均撒在所有步骤里。
- 没有监督点的完全自主系统,通常只适合低风险或强沙箱环境。