AI 前端监控指标
AI 业务前端在错误、性能、行为和业务效果上的关键监控指标与监控思路。
#tech / dev / frontend
#type / synthesis
#status / growing
[!info] related notes
AI 前端监控指标
AI 业务前端不能只看传统页面性能指标,还要把流式输出和业务效果纳入监控。
一句话定义
AI 前端监控指标,应该同时覆盖错误监控、性能监控、行为埋点和 AI 业务特有指标,才能真正定位体验问题。
四类常见指标
错误监控
- JS 运行时错误
- Promise 未捕获错误
- 资源加载错误
- 接口异常
性能监控
- FCP
- LCP
- INP
- 首次可见时间
- 可交互时间
- P50 / P90 / P95 分位数
行为埋点
- 进入率
- 点击率
- 转化率
- 中止率
AI 业务指标
- 首 token 时间
- 完整回答时长
- 流中断率
- 重试率
- 用户中止率
- 反馈好评率/差评率
为什么 AI 前端特别要看分位数
AI 产品很容易出现长尾体验:
- 弱网环境首 token 很慢
- 长回答流式过程中断
- 低端设备渲染 Markdown / code block 更卡
所以只看平均值往往不够,至少要看:
- P50:大多数普通用户体验
- P90 / P95:长尾用户体验
如果 P50 很好看,但 P95 很差,说明系统对边缘环境不稳。
一组更实用的采集思路
页面性能层
- FCP / LCP / INP
- 页面进入到首屏可见时间
- 首次交互响应时间
流式体验层
- 首 token 时间
- 完整回答耗时
- 中途断流率
- 用户主动停止比例
可靠性层
- 请求错误率
- 重试成功率
- Markdown/code block 渲染异常率
业务效果层
- 发送率
- 追问率
- 重新生成率
- 点赞 / 点踩率
面试里一句话怎么答
AI 前端监控我会分页面性能、流式体验、可靠性和业务效果四层来采。除了 FCP、LCP、INP 这类传统指标,还会看首 token 时间、完整回答时长、流中断率和用户中止率;统计口径上不会只看平均值,而会重点看 P90、P95 观察长尾体验。
最短记忆方式
AI 前端监控要同时看页面快不快、流稳不稳、用户用得顺不顺。