评估任务会针对 platform dataset 给您 rollout 的Documentation Index
Fetch the complete documentation index at: https://docs.osmosis.ai/llms.txt
Use this file to discover all available pages before exploring further.
AgentWorkflow 和 Grader 打分,并给出汇总分数、pass rate 和每个样本的结果。平台从已同步的 workspace repository 拉取代码,在自己的基础设施上运行评估——您无需 GPU 或训练任务。
概念
冒烟测试或正式评估
运行评估有两种场景:- 作为训练前的冒烟测试。 先运行一次评估,针对一小片数据确认 rollout 能端到端跑通、grader 能给出合理分数,然后再为完整训练任务投入 GPU。把
[evaluation].limit设为较小的值,只对少数几行打分。 - 作为正式评估。 单独衡量 agent 质量——比较模型或 prompt、跟踪质量随时间的变化,或从 CI 运行评估。无论是 base model 还是训练后的 checkpoint 都一样。把
[evaluation].limit设为数据集的行数即可评估全部行;否则平台会随机抽取 10% 的样本。
Evaluation Configuration 与 Evaluation Run
Evaluation Configuration 是配方,定义要使用的模型、数据集、AgentWorkflow 和评估设置。Evaluation Run 是该配置的一次执行。您可以从同一配置提交多个评估任务,以比较模型、prompt 或数据集切片。提交评估任务
使用 CLI 和configs/eval/ 下的 TOML 配置文件提交评估任务:
--yes 可跳过确认提示:
关键配置字段
完整 TOML 参考和所有字段(包括
[env] 和 [secrets])请参见 Config Files。状态生命周期
评估任务会经历以下状态:| Status | Description |
|---|---|
| pending | 任务已排队,正在等待资源配置。 |
| running | 评估正在针对数据集执行。 |
| finished | 评估成功完成,分数、pass rate 和样本数可用。 |
| failed | 评估执行过程中出错。查看日志了解详情。 |
| stopped | 用户通过 CLI 或 dashboard 手动停止评估。 |
监控
您可以通过 CLI 或平台 dashboard 跟踪评估进度。CLI 命令
info 输出包含 model、dataset、rollout 和时间戳,并在 run 完成后给出汇总分数、pass rate 和总样本数。当 run 处于 pending 或 running 时,结果是实时快照。
Platform Dashboard
platform.osmosis.ai Web dashboard 会将评估任务与训练任务一同列出,您可以按 status、dataset、model 和 rollout 筛选,并查看每次 run 的分数和样本。管理评估任务
停止任务
stopped 状态。传入 --yes 可跳过确认提示。
下一步
Config Files
评估 TOML config 参考。
Datasets & Models
上传数据集并查看支持的 base models。
Training Runs
评估结果健康后,提交一次训练任务。