跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://docs.osmosis.ai/llms.txt

Use this file to discover all available pages before exploring further.

评估任务会针对 platform dataset 给您 rollout 的 AgentWorkflowGrader 打分,并给出汇总分数、pass rate 和每个样本的结果。平台从已同步的 workspace repository 拉取代码,在自己的基础设施上运行评估——您无需 GPU 或训练任务。

概念

冒烟测试或正式评估

运行评估有两种场景:
  • 作为训练前的冒烟测试。 先运行一次评估,针对一小片数据确认 rollout 能端到端跑通、grader 能给出合理分数,然后再为完整训练任务投入 GPU。把 [evaluation].limit 设为较小的值,只对少数几行打分。
  • 作为正式评估。 单独衡量 agent 质量——比较模型或 prompt、跟踪质量随时间的变化,或从 CI 运行评估。无论是 base model 还是训练后的 checkpoint 都一样。把 [evaluation].limit 设为数据集的行数即可评估全部行;否则平台会随机抽取 10% 的样本。

Evaluation Configuration 与 Evaluation Run

Evaluation Configuration 是配方,定义要使用的模型、数据集、AgentWorkflow 和评估设置。Evaluation Run 是该配置的一次执行。您可以从同一配置提交多个评估任务,以比较模型、prompt 或数据集切片。

提交评估任务

使用 CLI 和 configs/eval/ 下的 TOML 配置文件提交评估任务:
osmosis eval submit configs/eval/my-rollout.toml
Git Sync 是您 rollout 代码的 source of truth。CLI 会读取您传入的本地 TOML config 值,但 rollout 代码来自已同步的 workspace repository。提交代码修改前,请先 commit、push 并等待同步完成;需要特定已同步版本时,请设置 commit_sha
在脚本或 CI 中传入 --yes 可跳过确认提示:
osmosis eval submit configs/eval/my-rollout.toml --yes

关键配置字段

[experiment]
rollout = "my-rollout"                  # rollouts/ 下的 rollout 目录名
entrypoint = "main.py"                  # entrypoint 文件名
model_path = "openai/gpt-5-mini"        # LiteLLM 格式的 model 名称
dataset = "my-dataset"                  # platform dataset 名称
# commit_sha = "abc123..."              # 可选:固定到特定已同步 commit

[evaluation]
# 可选。省略各值以使用平台默认。
# limit = 200                           # 前 N 行;省略则随机抽取 10% 样本
# n = 1                                 # 每行的评估次数
# batch_size = 1                        # 每个 batch 评估的行数
# pass_threshold = 1.0                  # 最低通过分数
# agent_workflow_timeout_s = 450        # 每行 agent workflow 超时
# grader_timeout_s = 150                # 每行 grader 超时
完整 TOML 参考和所有字段(包括 [env][secrets])请参见 Config Files

状态生命周期

评估任务会经历以下状态:
StatusDescription
pending任务已排队,正在等待资源配置。
running评估正在针对数据集执行。
finished评估成功完成,分数、pass rate 和样本数可用。
failed评估执行过程中出错。查看日志了解详情。
stopped用户通过 CLI 或 dashboard 手动停止评估。

监控

您可以通过 CLI 或平台 dashboard 跟踪评估进度。

CLI 命令

# 列出当前 workspace repository 的 evaluation runs
osmosis eval list
osmosis eval list --all

# 显示单次 run 的详情和结果
osmosis eval info my-eval-run
info 输出包含 model、dataset、rollout 和时间戳,并在 run 完成后给出汇总分数、pass rate 和总样本数。当 run 处于 pendingrunning 时,结果是实时快照。

Platform Dashboard

platform.osmosis.ai Web dashboard 会将评估任务与训练任务一同列出,您可以按 status、dataset、model 和 rollout 筛选,并查看每次 run 的分数和样本。

管理评估任务

停止任务

osmosis eval stop my-eval-run
这会请求停止一次 pending 或 running 的评估。平台完成 cleanup 后,run 会进入 stopped 状态。传入 --yes 可跳过确认提示。

下一步

Config Files

评估 TOML config 参考。

Datasets & Models

上传数据集并查看支持的 base models。

Training Runs

评估结果健康后,提交一次训练任务。