Agent Guardrails

Guardrails 是 agent 系统中控制风险、限制动作边界和触发拦截或审批的保护层,不等于简单内容审核。

#tech / ai #type / concept #status / growing

[!info] related notes

Agent Guardrails

一句话定义

Guardrails 是 agent 系统里的风险控制层,用来约束它能做什么、什么时候该停、什么时候该触发拦截或审批。

核心机制 / 工作原理

Guardrails 常见会挂在几个位置:

  • 用户输入入口
  • 模型输出出口
  • 工具调用前后
  • handoff 或高风险动作节点

它们保护的不是只有内容安全,还包括:

  • 越权动作
  • 错误工具调用
  • 高风险状态变更
  • 不符合政策或业务规则的执行路径

最小例子 / 最小场景

客服 agent 如果准备执行退款:

  • 先检查金额阈值
  • 再检查用户身份和订单状态
  • 超过阈值时要求人工审批

这整套限制就是 guardrails 的一部分。

边界与易混淆点

  • guardrails 不等于单一的敏感词过滤。
  • guardrails 不是“让模型自己注意一点”,而是系统级控制。
  • 没有清楚的工具边界和审批点,guardrails 很容易沦为空壳。
创建于 2026/5/4 更新于 2026/5/27