创建训练运行
在您的项目仪表板中:- 点击 New Training Run
- 配置运行(参见以下各节)
- 点击 Start Training
配置
基础模型
选择要微调的基础模型。平台支持兼容 RL 训练的主流开源权重模型。数据集
上传或选择训练数据集。数据集包含 prompt(以及可选的 ground truth),模型在 rollout 期间使用这些数据进行训练。Reward 函数
选择一个或多个 reward 函数来对训练期间模型的输出进行评分: 可以将多个 reward 函数组合使用,并配置权重。工具
选择在训练 rollout 期间 agent 可用的 MCP 工具。工具从您连接的仓库同步,或在您的 Remote Rollout 服务器中定义。超参数
您可以配置的关键训练超参数:| 参数 | 描述 |
|---|---|
| Learning rate | 模型更新的步长 |
| Batch size | 每个训练步骤的样本数 |
| Max turns | 每个 rollout episode 的最大 agent 轮次 |
| KL penalty | KL 散度惩罚系数(防止灾难性遗忘) |
| Epochs | 遍历数据集的次数 |
| Temperature | Rollout 期间的采样温度 |
Reward Rubric
Reward rubric(前身为 LLM Judges)使用外部 LLM 提供商在训练期间评估模型输出。无需编写确定性的评分逻辑,您只需用自然语言描述评估标准,由 LLM 对输出进行评分。Reward Rubric 的工作原理
- 在训练 rollout 期间,模型生成一个回复
- 回复连同您的 rubric 一起发送到 LLM 提供商(OpenAI、Anthropic、Google 等)
- LLM 根据您的标准评估回复并返回评分
- 该评分用作 RL 训练的 reward 信号
LLM 评审需要您要使用的提供商的 API 密钥。请在 LLM Judges → Add LLM Judge 中配置。
编写 Reward Rubric
了解如何使用
@osmosis_rubric 装饰器编写和测试 rubric。训练策略
标准训练
使用 RL 优化对数据集进行单次遍历。最适合:- 初始训练实验
- 具有明确 reward 信号的明确定义的任务
- 较小的数据集
持续训练
多个 epoch 并持续监控。最适合:- 生产模型改进
- 多次遍历有帮助的大型数据集
- 需要逐步优化的任务
管理训练运行
启动和停止
- Start(启动) —— 配置 GPU 并开始训练
- Pause(暂停) —— 保存当前状态并释放资源
- Resume(恢复) —— 从上一个检查点继续
- Stop(停止) —— 结束训练并完成检查点
检查点
在训练期间,平台会在可配置的间隔自动保存检查点。在训练运行页面中:- 查看所有已保存的检查点及其训练步骤和指标
- 按 reward 分数比较检查点
- 合并检查点以创建可部署的模型
- 将合并后的模型导出到 Hugging Face Hub