LangSmith

面向 LLM 与 agent 系统的 tracing、debug、eval 和 monitoring 平台,用来观察、比较并持续改进运行中的执行链。

#tech / ai #resource / langsmith #type / resource #status / growing

[!info] related notes

LangSmith

这是什么

LangSmith 是 LangChain 生态里偏观测与评估的平台层。它不负责定义 agent loop,也不负责运行 state graph,而是负责把运行中的调用链、工具轨迹、检索结果和评估数据记录下来,方便调试、比较和持续改进。

它在系统里主要管什么

如果把 agent 系统拆成“开发框架 + 运行时 + 观测平台”三层,LangSmith 主要负责最上面的可见性与质量反馈:

  • tracing:看清一次请求内部经过了哪些模型、工具、检索和状态步骤
  • debug:定位为什么参数错了、为什么用了错误工具、为什么回答质量下降
  • eval:把关键场景固化成可重复比较的数据集和评分流程
  • monitoring:在真实流量里观察时延、失败率、行为漂移和质量波动

为什么它重要

Agent 系统最难的通常不是“先跑起来”,而是:

  • 为什么这次选错了工具
  • 为什么检索命中了旧文档
  • 为什么 prompt 或 model 升级后质量变差
  • 为什么某一类请求总在同一节点失败

LangSmith 的价值,就是把这些问题从“凭感觉聊天测试”变成“能回放、能比较、能做回归”的工程问题。

和 LangChain、LangGraph 的关系

  • langchain 更像 agent 应用开发框架
  • langgraph 更像 stateful agent 的运行时与状态机骨架
  • LangSmith 更像 tracing、debug、eval、monitoring 平台

一句话说:

LangChain 负责搭,LangGraph 负责跑,LangSmith 负责看和评。

常见用途

  • 调试多步 tool calling 或 RAG 路径
  • 比较不同 prompt、model、tool schema 的效果
  • 把关键业务场景做成 dataset evals
  • 对上线中的 agent 做运行期监控和反馈回流

使用边界

  • LangSmith 提高的是可观察性和可比较性,不会自动替你修好糟糕的工具设计
  • 没有明确的质量标准和代表性样本,只接 tracing 平台也很难形成稳定改进
  • 它更像工程反馈系统,而不是“让模型更聪明”的能力层

相关链接 / 官方入口

创建于 2026/5/20 更新于 2026/5/27