评估任务 - Osmosis

评估任务会针对 platform dataset 给您 rollout 的 AgentWorkflow 和 Grader 打分，并给出汇总分数、pass rate 和每个样本的结果。平台从已同步的 workspace repository 拉取代码，在自己的基础设施上运行评估——您无需 GPU 或训练任务。

概念

冒烟测试或正式评估

运行评估有两种场景：

作为训练前的冒烟测试。 先运行一次评估，针对一小片数据确认 rollout 能端到端跑通、grader 能给出合理分数，然后再为完整训练任务投入 GPU。把 [evaluation].limit 设为较小的值，只对少数几行打分。
作为正式评估。 单独衡量 agent 质量——比较模型或 prompt、跟踪质量随时间的变化，或从 CI 运行评估。无论是 base model 还是训练后的 checkpoint 都一样。把 [evaluation].limit 设为数据集的行数即可评估全部行；否则平台会随机抽取 10% 的样本。

Evaluation Configuration 与 Evaluation Run

Evaluation Configuration 是配方，定义要使用的模型、数据集、AgentWorkflow 和评估设置。Evaluation Run 是该配置的一次执行。您可以从同一配置提交多个评估任务，以比较模型、prompt 或数据集切片。

提交评估任务

使用 CLI 和 configs/eval/ 下的 TOML 配置文件提交评估任务：

osmosis eval submit configs/eval/my-rollout.toml

Git Sync 是您 rollout 代码的 source of truth。CLI 会读取您传入的本地 TOML config 值，但 rollout 代码来自已同步的 workspace repository。提交代码修改前，请先 commit、push 并等待同步完成；需要特定已同步版本时，请设置 commit_sha。

在脚本或 CI 中传入 --yes 可跳过确认提示：

osmosis eval submit configs/eval/my-rollout.toml --yes

关键配置字段

[experiment]
rollout = "my-rollout"                  # rollouts/ 下的 rollout 目录名
entrypoint = "main.py"                  # entrypoint 文件名
model_path = "openai/gpt-5-mini"        # LiteLLM 格式的 model 名称
dataset = "my-dataset"                  # platform dataset 名称
# commit_sha = "abc123..."              # 可选：固定到特定已同步 commit

[evaluation]
# 可选。省略各值以使用平台默认。
# limit = 200                           # 前 N 行；省略则随机抽取 10% 样本
# n = 1                                 # 每行的评估次数
# batch_size = 1                        # 每个 batch 评估的行数
# pass_threshold = 1.0                  # 最低通过分数
# agent_workflow_timeout_s = 450        # 每行 agent workflow 超时
# grader_timeout_s = 150                # 每行 grader 超时

完整 TOML 参考和所有字段（包括 [env] 和 [secrets]）请参见 Config Files。

状态生命周期

评估任务会经历以下状态：

Status	Description
pending	任务已排队，正在等待资源配置。
running	评估正在针对数据集执行。
finished	评估成功完成，分数、pass rate 和样本数可用。
failed	评估执行过程中出错。查看日志了解详情。
stopped	用户通过 CLI 或 dashboard 手动停止评估。

监控

您可以通过 CLI 或平台 dashboard 跟踪评估进度。

CLI 命令

# 列出当前 workspace repository 的 evaluation runs
osmosis eval list
osmosis eval list --all

# 显示单次 run 的详情和结果
osmosis eval info my-eval-run

info 输出包含 model、dataset、rollout 和时间戳，并在 run 完成后给出汇总分数、pass rate 和总样本数。当 run 处于 pending 或 running 时，结果是实时快照。侧栏会显示进度（已完成行数和百分比）与耗时。下方独立的 Configuration 与 Results 区块会展示 entrypoint、commit SHA、dataset 统计、pass 阈值、pass@k、token 限额、已解析的 secret scope、[env] 键和最近的平台日志。

n 表示每行数据的评估尝试次数。当 limit = L、n = N 时，平台最多运行 L * N 次评估（使用采样时为 sampled_rows * n）。

Platform Dashboard

platform.osmosis.ai Web dashboard 会将评估任务与训练任务一同列出，您可以按 status、dataset、model 和 rollout 筛选，并查看每次 run 的分数和样本。

管理评估任务

停止任务

osmosis eval stop my-eval-run

这会请求停止一次 pending 或 running 的评估。平台完成 cleanup 后，run 会进入 stopped 状态。传入 --yes 可跳过确认提示。

下一步

Config Files

评估 TOML config 参考。

Datasets

上传并验证 evaluation runs 使用的数据集。

Training Runs

评估结果健康后，提交一次训练任务。

​概念

​冒烟测试或正式评估

​Evaluation Configuration 与 Evaluation Run

​提交评估任务

​关键配置字段

​状态生命周期

​监控

​CLI 命令

​Platform Dashboard

​管理评估任务

​停止任务

​下一步

Config Files

Datasets

Training Runs

概念

冒烟测试或正式评估

Evaluation Configuration 与 Evaluation Run

提交评估任务

关键配置字段

状态生命周期

监控

CLI 命令

Platform Dashboard

管理评估任务

停止任务

下一步