Agent Guardrails

Guardrails 是 agent 系统中控制风险、限制动作边界和触发拦截或审批的保护层，不等于简单内容审核。

#tech / ai #type / concept #status / growing

[!info] related notes

所属 MOC: Agent MOC, Agent Evals MOC

前置概念: Agent, Orchestration

并列概念: Agent 中的人类监督, Agent 中的 Stopping Conditions

易混淆概念:

关系笔记: Agent 测试与评估, Agent 执行闭环

Agent Guardrails

一句话定义

Guardrails 是 agent 系统里的风险控制层，用来约束它能做什么、什么时候该停、什么时候该触发拦截或审批。

核心机制 / 工作原理

Guardrails 常见会挂在几个位置：

用户输入入口
模型输出出口
工具调用前后
handoff 或高风险动作节点

它们保护的不是只有内容安全，还包括：

越权动作
错误工具调用
高风险状态变更
不符合政策或业务规则的执行路径

最小例子 / 最小场景

客服 agent 如果准备执行退款：

先检查金额阈值
再检查用户身份和订单状态
超过阈值时要求人工审批

这整套限制就是 guardrails 的一部分。

边界与易混淆点

guardrails 不等于单一的敏感词过滤。
guardrails 不是“让模型自己注意一点”，而是系统级控制。
没有清楚的工具边界和审批点，guardrails 很容易沦为空壳。