LangSmith

面向 LLM 与 agent 系统的 tracing、debug、eval 和 monitoring 平台，用来观察、比较并持续改进运行中的执行链。

#tech / ai #resource / langsmith #type / resource #status / growing

[!info] related notes

相关主题: Agent 测试与评估, Agent Runtime, Agent 中的 Ground Truth Feedback

相关 MOC: AI MOC, Agent MOC, Agent Evals MOC, Python 大模型应用开发 MOC

相关资源: langchain, langgraph

关系笔记: LangChain、LangGraph 与 LangSmith 的分层

LangSmith

这是什么

LangSmith 是 LangChain 生态里偏观测与评估的平台层。它不负责定义 agent loop，也不负责运行 state graph，而是负责把运行中的调用链、工具轨迹、检索结果和评估数据记录下来，方便调试、比较和持续改进。

它在系统里主要管什么

如果把 agent 系统拆成“开发框架 + 运行时 + 观测平台”三层，LangSmith 主要负责最上面的可见性与质量反馈：

tracing：看清一次请求内部经过了哪些模型、工具、检索和状态步骤
debug：定位为什么参数错了、为什么用了错误工具、为什么回答质量下降
eval：把关键场景固化成可重复比较的数据集和评分流程
monitoring：在真实流量里观察时延、失败率、行为漂移和质量波动

为什么它重要

Agent 系统最难的通常不是“先跑起来”，而是：

为什么这次选错了工具
为什么检索命中了旧文档
为什么 prompt 或 model 升级后质量变差
为什么某一类请求总在同一节点失败

LangSmith 的价值，就是把这些问题从“凭感觉聊天测试”变成“能回放、能比较、能做回归”的工程问题。

和 LangChain、LangGraph 的关系

langchain 更像 agent 应用开发框架
langgraph 更像 stateful agent 的运行时与状态机骨架
LangSmith 更像 tracing、debug、eval、monitoring 平台

一句话说：

LangChain 负责搭，LangGraph 负责跑，LangSmith 负责看和评。

常见用途

调试多步 tool calling 或 RAG 路径
比较不同 prompt、model、tool schema 的效果
把关键业务场景做成 dataset evals
对上线中的 agent 做运行期监控和反馈回流

使用边界

LangSmith 提高的是可观察性和可比较性，不会自动替你修好糟糕的工具设计
没有明确的质量标准和代表性样本，只接 tracing 平台也很难形成稳定改进
它更像工程反馈系统，而不是“让模型更聪明”的能力层

LangSmith

这是什么

它在系统里主要管什么

为什么它重要

和 LangChain、LangGraph 的关系

常见用途

使用边界

相关链接 / 官方入口

Related notes