Agent Guardrails
Guardrails 是 agent 系统中控制风险、限制动作边界和触发拦截或审批的保护层,不等于简单内容审核。
#tech / ai
#type / concept
#status / growing
[!info] related notes
- 所属 MOC: Agent MOC, Agent Evals MOC
- 前置概念: Agent, Orchestration
- 并列概念: Agent 中的人类监督, Agent 中的 Stopping Conditions
- 易混淆概念:
- 关系笔记: Agent 测试与评估, Agent 执行闭环
Agent Guardrails
一句话定义
Guardrails 是 agent 系统里的风险控制层,用来约束它能做什么、什么时候该停、什么时候该触发拦截或审批。
核心机制 / 工作原理
Guardrails 常见会挂在几个位置:
- 用户输入入口
- 模型输出出口
- 工具调用前后
- handoff 或高风险动作节点
它们保护的不是只有内容安全,还包括:
- 越权动作
- 错误工具调用
- 高风险状态变更
- 不符合政策或业务规则的执行路径
最小例子 / 最小场景
客服 agent 如果准备执行退款:
- 先检查金额阈值
- 再检查用户身份和订单状态
- 超过阈值时要求人工审批
这整套限制就是 guardrails 的一部分。
边界与易混淆点
- guardrails 不等于单一的敏感词过滤。
- guardrails 不是“让模型自己注意一点”,而是系统级控制。
- 没有清楚的工具边界和审批点,guardrails 很容易沦为空壳。