LangSmith
面向 LLM 与 agent 系统的 tracing、debug、eval 和 monitoring 平台,用来观察、比较并持续改进运行中的执行链。
#tech / ai
#resource / langsmith
#type / resource
#status / growing
[!info] related notes
- 相关主题: Agent 测试与评估, Agent Runtime, Agent 中的 Ground Truth Feedback
- 相关 MOC: AI MOC, Agent MOC, Agent Evals MOC, Python 大模型应用开发 MOC
- 相关资源: langchain, langgraph
- 关系笔记: LangChain、LangGraph 与 LangSmith 的分层
LangSmith
这是什么
LangSmith 是 LangChain 生态里偏观测与评估的平台层。它不负责定义 agent loop,也不负责运行 state graph,而是负责把运行中的调用链、工具轨迹、检索结果和评估数据记录下来,方便调试、比较和持续改进。
它在系统里主要管什么
如果把 agent 系统拆成“开发框架 + 运行时 + 观测平台”三层,LangSmith 主要负责最上面的可见性与质量反馈:
- tracing:看清一次请求内部经过了哪些模型、工具、检索和状态步骤
- debug:定位为什么参数错了、为什么用了错误工具、为什么回答质量下降
- eval:把关键场景固化成可重复比较的数据集和评分流程
- monitoring:在真实流量里观察时延、失败率、行为漂移和质量波动
为什么它重要
Agent 系统最难的通常不是“先跑起来”,而是:
- 为什么这次选错了工具
- 为什么检索命中了旧文档
- 为什么 prompt 或 model 升级后质量变差
- 为什么某一类请求总在同一节点失败
LangSmith 的价值,就是把这些问题从“凭感觉聊天测试”变成“能回放、能比较、能做回归”的工程问题。
和 LangChain、LangGraph 的关系
- langchain 更像 agent 应用开发框架
- langgraph 更像 stateful agent 的运行时与状态机骨架
- LangSmith 更像 tracing、debug、eval、monitoring 平台
一句话说:
LangChain 负责搭,LangGraph 负责跑,LangSmith 负责看和评。
常见用途
- 调试多步 tool calling 或 RAG 路径
- 比较不同 prompt、model、tool schema 的效果
- 把关键业务场景做成 dataset evals
- 对上线中的 agent 做运行期监控和反馈回流
使用边界
- LangSmith 提高的是可观察性和可比较性,不会自动替你修好糟糕的工具设计
- 没有明确的质量标准和代表性样本,只接 tracing 平台也很难形成稳定改进
- 它更像工程反馈系统,而不是“让模型更聪明”的能力层