训练任务会使用 base model,并通过强化学习进行改进。您提供 rollout、grader、训练配置和数据集;平台负责配置 GPU、从已同步的 workspace repository 拉取代码、执行训练循环,并自动保存 checkpoints。Documentation Index
Fetch the complete documentation index at: https://docs.osmosis.ai/llms.txt
Use this file to discover all available pages before exploring further.
概念
Training Configuration 与 Training Run
Training Configuration 是配方,定义要使用的模型、数据集、AgentWorkflow 和超参数。Training Run 是该配置的一次执行。您可以从同一配置提交多个训练任务,以实验不同设置。训练行为
每次提交都会为 TOML config 中指定的 rollout、dataset、model 和超参数创建一个 managed training job。如果要运行另一个实验,请更新total_epochs、sampling settings 或 checkpoint cadence 等字段后再次提交 config。
提交训练任务
使用 CLI 和 TOML 配置文件提交训练任务:关键配置字段
完整 TOML 参考和所有字段请参见 Config Files。
状态生命周期
每个训练任务都会经历一系列状态:| Status | Description |
|---|---|
| pending | 任务已排队,正在等待 GPU 资源。 |
| running | 训练正在进行,指标和 checkpoints 正在生成。 |
| finished | 训练成功完成,最终 checkpoint 和指标可用。 |
| failed | 训练执行过程中出错。查看日志了解详情。 |
| stopped | 用户通过 CLI 或 dashboard 手动停止训练。 |
| killed | 训练在平台 cleanup 或 stop handling 期间被终止。 |
| crashed | 训练进程意外终止(e.g. OOM, hardware failure)。 |
| unknown | 平台无法确定当前训练状态。 |
failed 或 crashed 状态的任务,在失败前保存的 checkpoint 仍可能可用。监控
您可以通过 CLI 或平台 dashboard 跟踪训练进度。CLI 命令
Platform Dashboard
platform.osmosis.ai Web dashboard 提供:- Run list —— 按 status、dataset、base model 和 rollout 搜索和筛选训练任务。
- Overview metrics —— 在可用时查看 Duration、Reward、Improvement、Samples、Training Reward、Validation Reward、Model Entropy、Response Length、Total Length 和 Truncation Ratio。
- Checkpoints —— 查看已保存 checkpoints 及其 step、reward、deployment status 和 Hugging Face upload status。
- Outputs —— 在可用时查看 output artifacts。
LoRA Checkpoints
训练过程中,LoRA checkpoints 会按配置中的checkpoint_save_freq 间隔保存。Checkpoints 捕获特定训练 step 的 adapter weights。
您可以:
- 按 reward 分数比较 checkpoints,找出表现最佳的 step
- 从 dashboard 导出 checkpoints
- 将 checkpoints 上传到 Hugging Face
- 用
osmosis deploy部署 checkpoints 进行 inference
管理训练任务
停止任务
stopped 状态。
下一步
Datasets & Models
上传数据集并管理训练用 base models。
Deployments
部署已训练 checkpoints。