Agent Evals MOC
Agent 评测与上线验证主题入口,组织 deterministic tests、trace grading、dataset evals、shadow、canary 与人工审查。
#tech / ai
#tech / dev / test
#type / moc
#status / growing
[!info] related notes
- 相关 MOC: Agent MOC, Testing MOC, Coding Agent MOC
- 关系笔记: Agent 测试与评估
- 相关资源: openai-codex, langsmith
Agent Evals MOC
这张地图覆盖什么
这张地图聚焦 agent 的质量体系,而不是传统服务测试本身。重点包括:
- deterministic checks
- traces 与运行期观察
- dataset evals
- shadow / canary / rollout verification
- 人类 review 和审批点
推荐阅读顺序 / 从这里开始
- Agent 测试与评估
- Agent Guardrails
- Agent 中的人类监督
- Agent 中的 Approval Checkpoints
- Agent 中的 Stopping Conditions
- Agent 中的 Ground Truth Feedback
- Release and Runtime Verification