概述
- 针对数据集运行您的 Agent 循环
- 通过 LiteLLM 使用外部 LLM 提供商
- 使用您的
ground_truth数据计算奖励 - 支持批量和交互式执行
数据集格式
测试数据集需要以下列:| 列名 | 是否必需 | 描述 |
|---|---|---|
system_prompt | 是 | LLM 的系统提示词 |
user_prompt | 是 | 启动对话的用户消息 |
ground_truth | 否 | 用于奖励计算的预期输出 |
支持的格式
- JSONL (
.jsonl) - JSON (
.json) - Parquet (
.parquet)
示例数据集
test_data.jsonl:
基本用法
设置 API 密钥
运行测试
批量模式
运行所有行并获取摘要:保存结果
测试子集
交互模式
逐步执行 Agent 以进行调试:交互会话示例
支持的提供商
测试模式使用 LiteLLM 提供提供商支持。非 OpenAI 提供商需要添加前缀(例如anthropic/、gemini/、groq/)。OpenAI 模型无需前缀。
自定义 OpenAI 兼容 API
技巧与最佳实践
从交互模式开始
从交互模式开始
在运行批量测试之前,先使用
--interactive 来了解 Agent 的行为。测试边界情况
测试边界情况
包含多样化的测试用例:简单查询、多步骤问题、边界情况和潜在的失败场景。
比较模型
比较模型
使用多个模型进行测试,以确保 Agent 在不同提供商之间正常工作,并通过 Token 使用量来估算训练成本。
故障排除
如果您看到 “API key not found”,请设置相应的环境变量:gpt-5.2),而其他提供商需要前缀(anthropic/claude-sonnet-4-5、gemini/gemini-3-flash-preview)。
如果您看到 “No rows to test”,请验证您的数据集每行是否有有效的 JSON(对于 JSONL 格式)、所需列是否存在,以及 --offset 是否跳过了所有行。
启用调试模式以获取工具错误的详细输出: