跳转到主要内容
每次训练运行以一个基础模型为起点,通过强化学习迭代优化。您提供 reward 函数、工具和数据集,平台自动配置 GPU、执行训练循环并保存检查点。

创建训练运行

在您的项目仪表板中:
  1. 点击 New Training Run
  2. 配置运行(参见以下各节)
  3. 点击 Start Training

配置

基础模型

选择要微调的基础模型。平台支持兼容 RL 训练的主流开源权重模型。

数据集

上传或选择训练数据集。数据集包含 prompt(以及可选的 ground truth),模型在 rollout 期间使用这些数据进行训练。
数据集通常为 Parquet 格式,包含 prompt 和预期输出的列。有关数据集格式示例,请参阅 Remote Rollout 快速入门

Reward 函数

选择一个或多个 reward 函数来对训练期间模型的输出进行评分:
  • 同步的 reward 函数 —— 通过 Git Sync 从您连接的 GitHub 仓库导入
  • Reward rubric —— 使用已配置的提供商进行 LLM 评估的 rubric
可以将多个 reward 函数组合使用,并配置权重。

工具

选择在训练 rollout 期间 agent 可用的 MCP 工具。工具从您连接的仓库同步,或在您的 Remote Rollout 服务器中定义。

超参数

您可以配置的关键训练超参数:
参数描述
Learning rate模型更新的步长
Batch size每个训练步骤的样本数
Max turns每个 rollout episode 的最大 agent 轮次
KL penaltyKL 散度惩罚系数(防止灾难性遗忘)
Epochs遍历数据集的次数
TemperatureRollout 期间的采样温度
提供的默认值适用于大多数场景。根据训练结果进行调整。

Reward Rubric

Reward rubric(前身为 LLM Judges)使用外部 LLM 提供商在训练期间评估模型输出。无需编写确定性的评分逻辑,您只需用自然语言描述评估标准,由 LLM 对输出进行评分。

Reward Rubric 的工作原理

  1. 在训练 rollout 期间,模型生成一个回复
  2. 回复连同您的 rubric 一起发送到 LLM 提供商(OpenAI、Anthropic、Google 等)
  3. LLM 根据您的标准评估回复并返回评分
  4. 该评分用作 RL 训练的 reward 信号
LLM 评审需要您要使用的提供商的 API 密钥。请在 LLM Judges → Add LLM Judge 中配置。

编写 Reward Rubric

了解如何使用 @osmosis_rubric 装饰器编写和测试 rubric。

训练策略

标准训练

使用 RL 优化对数据集进行单次遍历。最适合:
  • 初始训练实验
  • 具有明确 reward 信号的明确定义的任务
  • 较小的数据集

持续训练

多个 epoch 并持续监控。最适合:
  • 生产模型改进
  • 多次遍历有帮助的大型数据集
  • 需要逐步优化的任务

管理训练运行

启动和停止

  • Start(启动) —— 配置 GPU 并开始训练
  • Pause(暂停) —— 保存当前状态并释放资源
  • Resume(恢复) —— 从上一个检查点继续
  • Stop(停止) —— 结束训练并完成检查点

检查点

在训练期间,平台会在可配置的间隔自动保存检查点。在训练运行页面中:
  • 查看所有已保存的检查点及其训练步骤和指标
  • 按 reward 分数比较检查点
  • 合并检查点以创建可部署的模型
  • 将合并后的模型导出到 Hugging Face Hub
有关跟踪训练进度和管理检查点的详细信息,请参阅监控

后续步骤