在数据集上运行实验¶
LangGraph Studio 支持评估,允许你在预定义的 LangSmith 数据集上运行助手。这使你能够了解应用程序在各种输入上的性能,将结果与参考输出进行比较,并使用评估器对结果进行评分。
本指南向你展示如何从 Studio 端到端运行实验。
先决条件¶
在运行实验之前,请确保你具备以下条件:
-
LangSmith 数据集:你的数据集应包含要测试的输入,以及可选的用于比较的参考输出。
-
(可选)评估器:你可以在 LangSmith 中将评估器(例如,LLM-as-a-Judge、启发式或自定义函数)附加到数据集。这些将在图处理完所有输入后自动运行。
- 要了解更多信息,请阅读评估概念。
-
正在运行的应用程序:实验可以针对以下内容运行:
- 部署在 LangGraph Platform 上的应用程序。
- 通过 langgraph-cli 启动的本地运行应用程序。
分步指南¶
1. 启动实验¶
点击 Studio 页面右上角的 Run experiment 按钮。
2. 选择数据集¶
在出现的模态框中,选择用于实验的数据集(或特定数据集分割),然后点击 Start。
3. 监控进度¶
数据集中的所有输入现在将针对活动助手运行。通过右上角的徽章监控实验的进度。
你可以在实验在后台运行时继续在 Studio 中工作。随时点击箭头图标按钮导航到 LangSmith 并查看详细的实验结果。
故障排除¶
"Run experiment"按钮被禁用¶
如果"Run experiment"按钮被禁用,请检查以下内容:
- 已部署的应用程序:如果你的应用程序部署在 LangGraph Platform 上,你可能需要创建新修订版本以启用此功能。
- 本地开发服务器:如果你在本地运行应用程序,请确保已升级到最新版本的
langgraph-cli(pip install -U langgraph-cli)。此外,通过在项目的.env文件中设置LANGSMITH_API_KEY来确保已启用跟踪。
评估器结果缺失¶
当你运行实验时,任何附加的评估器都会排队执行。如果你没有立即看到结果,这可能意味着它们仍在等待中。