Agent Evals MOC

Agent 评测与上线验证主题入口,组织 deterministic tests、trace grading、dataset evals、shadow、canary 与人工审查。

#tech / ai #tech / dev / test #type / moc #status / growing

[!info] related notes

Agent Evals MOC

这张地图覆盖什么

这张地图聚焦 agent 的质量体系,而不是传统服务测试本身。重点包括:

  • deterministic checks
  • traces 与运行期观察
  • dataset evals
  • shadow / canary / rollout verification
  • 人类 review 和审批点

推荐阅读顺序 / 从这里开始

  1. Agent 测试与评估
  2. Agent Guardrails
  3. Agent 中的人类监督
  4. Agent 中的 Approval Checkpoints
  5. Agent 中的 Stopping Conditions
  6. Agent 中的 Ground Truth Feedback
  7. Release and Runtime Verification

核心概念分组

测试与评测主体

风险控制

发布与线上验证

相关 MOC

创建于 2026/5/4 更新于 2026/5/27