Agent 中的人类监督

人类监督不是给 agent 兜底的口号，而是把审批、判断和升级点明确插入执行闭环中，控制高风险动作和不可逆决策。

#tech / ai #type / concept #status / growing

[!info] related notes

所属 MOC: Agent MOC, Agent Evals MOC

前置概念: Agent, Agent Guardrails

并列概念: Agent 中的 Approval Checkpoints, Agent 中的 Stopping Conditions

易混淆概念:

关系笔记: Customer Support Agents, Coding Agents, Agent 执行闭环

Agent 中的人类监督

一句话定义

人类监督是把人工判断显式插入 agent 执行闭环中的设计，而不是事后再看结果对不对。

核心机制 / 工作原理

适合交给人类的通常是：

高风险动作审批
模糊或价值判断很强的决策
需求边界不清时的澄清
最终交付前的质量把关

监督点可以出现在：

任务开始前
关键动作前
遇到 blocker 时
完成后 review 阶段

最小例子 / 最小场景

coding agent 自动改完代码后：

自动跑测试
自动给出改动说明
但最终是否合并，仍由人类 code review 决定

边界与易混淆点

human oversight 不等于“每一步都让人确认”，那样系统就失去 agent 的意义了。
真正有价值的监督是插在高杠杆、高风险节点，而不是平均撒在所有步骤里。
没有监督点的完全自主系统，通常只适合低风险或强沙箱环境。